데이콘 대회 참여 - 08 세개의 모델

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

Pandas Data Handling 1편

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 I. Kaggle에서 타이타닉 데이터 가져오기 캐글 데이터 가져오는 예제는 본 Kaggle with Google Colab에서 참고하기를 바란다. 먼저 kaggle 패키지를 설치한다. !pip install kaggle Requirement already satisfied: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6) Requirement already satisfied: urllib3<1.25,>=1.21.1 in /usr/local/lib/python3.

ch 08 - SmartPLS 소프트웨어 소개

I. SmartPLS 설치 SmartPLS는 구조방정식모델링을 위한 전용 통계분석 프로그램으로 다양한 학문 분야에서 광범위하게 사용됨. 편이성, 친숙성, 안정성 면에서 매우 우수함. 매우 적은 소표본에서도 활용할 수 있음. 정규분포 등의 엄격한 가정 조건에 구애받지 않고 사용할 수 있음. 프로그램 설치는 아래 링크를 클릭한다. Download latest version - SmartPLS 3.3.2 학생용 버전은 평생 무료이며, 약간의 사용상 제약이 존재한다. II. SmartPLS 관련 자료 교제 추천 원서 - A Primer on Partial Least Squares Structural Equation Modeling(PLS-SEM) (2013) 번역서 - PLS 구조모델의 이해 (2014) 국내저서 - 석박사학위 및 학술논문 작성 중심의 SmartPLS 3.

데이콘 대회 참여 - 07 두개의 모델

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

데이콘 대회 참여 - 06 교차검증과 파라미터 튜닝

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

ch 07 - 데이터 검토

개요 수집된 데이터에 대해 정규성 검증을 하는 것은 중요하다. 그런데, CB-SEM과 PLS-SEM의 기준 조건은 조금 상이하다. 정규성 분포 확인 Kolmogorov-Smirnov Test 또는 Shapiro-Wilk Test를 통해서 검증한다. 귀무가설: 데이터분포를 정규분포를 이룬다, p-value > 0.05 데이터가 치우쳐 있는 정도를 나타내는 왜도(skewness: S)와 첨도(Kurtosis: K)를 검토한다. 첨도와 왜도가 -1보다 작거나 또는 +1 보다 크지 않으면 변수는 정규분포를 하고 있다고 판단한다. 그러나, 이 부분은 분석 방법에 대해 조금 상이하다. 회귀 분석: 엄밀하게는 2, 관용적으로 3을 사용함.

데이콘 대회 참여 - 05 GBM 파라미터 튜닝

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

데이콘 대회 참여 - 04 데이터셋 분리

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

ch 06 - 표본의 크기

개요 PLS-SEM은 작은 표본 크기에 의해 식별 문제가 발생하지 않으며 모델이 복잡하고 표본크기가 작은 상황에서도 높은 수준의 통게적 검증력을 가짐 일반적으로 CB-SEM의 경우 표본 크기가 200개 이상이 필요한 것으로 알려짐 반대로 PLS-SEM은 30-100개 정도의 소표본인 경우에도 적용할 수 있다. 표본크기를 증가시키면 모델 추정의 정확성이 높아지나 표본이 250개 이상이 넘어가면 CB-SEM과 차이점이 없어진다. 최소 표본 크기 Chin(1988)과 Barclay, Higgins & Thompson(1995)는 최소표본크기 결정에 있어서 10배수 규칙(10 times rule)을 제안함. 단일 잠재변수(구성개념)을 측정하는 데 사용된 형성적 지표 최대수의 10보다 커야 함 구조모델에서 특정 잠재변수(구성개념)로 향하는 경로 최대수의 10배 보다 커야 함 이러한 10배수 규칙에 의하면 PLS-SEM을 사용하는 데 있어서 최소한의 표본크기는 형성적 측정 모델과 반영적 측정모델이 모두 구조모델 속에 포함되어 있는 경우에는 두 기준 모두 적용해 판단한다.

데이콘 대회 참여 - 03 데이터 샘플링과 종속변수 로그변환

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.