머신러닝 데이터 전처리 1 - 결측치 처리

개요 EDA를 진행할 때, 결측치가 있는 데이터를 시각화 하여 결측치 유무를 파악하였다. 참조: EDA with Housing Price Prediction - Handling Missing Values 이번 포스트에서는 결측치를 처리하는 코드를 작성할 것이다. I. 구글 드라이브 연동 구글 코랩을 시작하면 언제든지 가장 먼저 해야 하는 것은 드라이브 연동이다. from google.colab import drive # 패키지 불러오기 from os.path import join ROOT = "/content/drive" # 드라이브 기본 경로 print(ROOT) # print content of ROOT (Optional) drive.mount(ROOT) # 드라이브 기본 경로 Mount MY_GOOGLE_DRIVE_PATH = 'My Drive/Colab Notebooks/inflearn_kaggle/' # 프로젝트 경로 PROJECT_PATH = join(ROOT, MY_GOOGLE_DRIVE_PATH) # 프로젝트 경로 print(PROJECT_PATH) /content/drive Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.

데이콘 대회 참여 - 09 스태킹 알고리즘

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully installed confuse-1.3.0 htmlmin-0.1.12 imagehash-4.1.0 pandas-profiling-2.8.0 phik-0.10.0 tangled-up-in-unicode-0.0.6 tqdm-4.47.0 visions-0.4.4 I. GBM, XGBoost, Lightgbm의 개요 및 실습 부스팅 알고리즘은 여러 개의 약한 학습기(Weak Learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류 개선하며 학습하는 방식.

Github Project 포트폴리오

개요 본 포스트는 깃허브 프로젝트 관리에 관한 것이다. I. 프로필 작성하기 이력서에 준하는 프로필 또는 유니크한 것을 살리는 것이 좋다. 깔끔한 정장을 입고, 이쁘게 화장을 하고, 면접을 보러가듯이 인사담당자가 보는 이로 하여금 좋은 인상을 심어줘야 한다. 성명, 이메일, 전화번호 등은 가급적 자세하게 기록해두는 것이 좋다. 프로젝트는 현재 진행중인 Pinned Repositories 상위 3~4개 정도 올려 놓는 것이 좋다. 만약에 현재 기여하는 오픈 소스 리퍼지토리가 있다면 반드시 메인 화면에 고정시킨다. II. 깃허브 설치 및 연동 잔디밭은 일종의 열정과 성실함을 보여준다.

데이콘 대회 참여 - 08 세개의 모델

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

Pandas Data Handling 1편

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 I. Kaggle에서 타이타닉 데이터 가져오기 캐글 데이터 가져오는 예제는 본 Kaggle with Google Colab에서 참고하기를 바란다. 먼저 kaggle 패키지를 설치한다. !pip install kaggle Requirement already satisfied: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6) Requirement already satisfied: urllib3<1.25,>=1.21.1 in /usr/local/lib/python3.

ch 08 - SmartPLS 소프트웨어 소개

I. SmartPLS 설치 SmartPLS는 구조방정식모델링을 위한 전용 통계분석 프로그램으로 다양한 학문 분야에서 광범위하게 사용됨. 편이성, 친숙성, 안정성 면에서 매우 우수함. 매우 적은 소표본에서도 활용할 수 있음. 정규분포 등의 엄격한 가정 조건에 구애받지 않고 사용할 수 있음. 프로그램 설치는 아래 링크를 클릭한다. Download latest version - SmartPLS 3.3.2 학생용 버전은 평생 무료이며, 약간의 사용상 제약이 존재한다. II. SmartPLS 관련 자료 교제 추천 원서 - A Primer on Partial Least Squares Structural Equation Modeling(PLS-SEM) (2013) 번역서 - PLS 구조모델의 이해 (2014) 국내저서 - 석박사학위 및 학술논문 작성 중심의 SmartPLS 3.

데이콘 대회 참여 - 07 두개의 모델

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

데이콘 대회 참여 - 06 교차검증과 파라미터 튜닝

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

ch 07 - 데이터 검토

개요 수집된 데이터에 대해 정규성 검증을 하는 것은 중요하다. 그런데, CB-SEM과 PLS-SEM의 기준 조건은 조금 상이하다. 정규성 분포 확인 Kolmogorov-Smirnov Test 또는 Shapiro-Wilk Test를 통해서 검증한다. 귀무가설: 데이터분포를 정규분포를 이룬다, p-value > 0.05 데이터가 치우쳐 있는 정도를 나타내는 왜도(skewness: S)와 첨도(Kurtosis: K)를 검토한다. 첨도와 왜도가 -1보다 작거나 또는 +1 보다 크지 않으면 변수는 정규분포를 하고 있다고 판단한다. 그러나, 이 부분은 분석 방법에 대해 조금 상이하다. 회귀 분석: 엄밀하게는 2, 관용적으로 3을 사용함.

데이콘 대회 참여 - 05 GBM 파라미터 튜닝

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.