Data Transformation

Kaggle Survey Data Transformation Tip

Intro Data Transformation is always important to visualise. Here, I just introduced to get value counts in different dataset. If you are newbie, please be aware of this code before you dive into visualization. # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.

Home Credit Default - Data Visualization

공지 본 포스트는 재직자 교육을 위해 만든 강의안의 일부입니다. Introduction 대회 개요 Many people struggle to get loans due to insufficient or non-existent credit histories. And, unfortunately, this population is often taken advantage of by untrustworthy lenders. Home Credit strives to broaden financial inclusion for the unbanked population by providing a positive and safe borrowing experience. In order to make sure this underserved population has a positive loan experience, Home Credit makes use of a variety of alternative data–including telco and transactional information–to predict their clients’ repayment abilities.

엑셀 데이터 가공하기 변환

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 정리되지 못한 엑셀 파일을 불러와서 하나의 테이블을 만드는 과정을 진행해본다. 위 데이터를 원본 그대로 받아서 pandas 데이터 프레임에 추가한다. A3 셀에 있는 [시·도지사선거][서울특별시][강남구] 분리하여 각 column에 추가한다. 라이브러리 불러오기 3개의 라이브러리를 불러온다. import pandas as pd import openpyxl import os 파일 확인 data 폴더 내 데이터를 확인한다.

(Python) Pandas Data Convert

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 1줄 요약 Pandas에서 데이터 형변환은 astype로 끝낸다. 참고자료 astype에 대한 공식 문서를 살펴본다. 참고자료: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html 예제 가상의 temp 데이터를 만든다. 모두 0, 1, 2 데이터이지만 각 데이터 타입은 모두 다르다. import pandas as pd temp = pd.

Pandas read_csv skiprows 활용

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 문제 개요 Kaggle 데이터 New York City Taxi Fare Prediction 데이터를 구글 코랩에서 Loading 하는 중 메모리 문제가 발생함 계통추출(Systematic Sampling)을 통해 데이터를 불러오기로 함 예제 실습 아래 예제를 통해서 실제로 데이터가 줄어드는지 확인을 해본다.

KDX Competition Guideline

개요 본 수업을 듣는 수강생들을 위해 간단한 튜토리얼을 만들었다. 대회는 다음과 같다. 싸이트: 한국데이터거래소 /img/r/competition/blog_kdx_guideline_files/img 1단계 패키지 불러오기 데이터 가공 및 시각화 위주의 패키지를 불러온다. library(tidyverse) # 데이터 가공 및 시각화 library(readxl) # 엑셀파일 불러오기 패키지 2단계 데이터 불러오기 데이터가 많아서 순차적으로 진행하도록 한다. 각 데이터에 대한 설명은활용데이터설명(PDF)을 참조한다. 먼저 제 개발환경은 아래와 같다. Note: 윈도우와 Mac은 다를 수 있음을 명심하자. sessionInfo() ## R version 4.0.2 (2020-06-22) ## Platform: x86_64-apple-darwin17.0 (64-bit) ## Running under: macOS Catalina 10.

Geospatial Analysis Using Python - Basic

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 파이썬을 활용한 공간 시각화에 대해 기술하도록 한다. 각 패키지의 쓰임새와 용도를 확인하도록 한다. 예제를 통해 확인한 뒤, 국내 데이터를 적용해보도록 한다. 한글 폰트상의 문제점 외에 다른 문제점은 없는지 확인해본다. 우선 참고한 자료는 아래와 같다.

머신러닝 데이터 전처리 1 - 결측치 처리

개요 EDA를 진행할 때, 결측치가 있는 데이터를 시각화 하여 결측치 유무를 파악하였다. 참조: EDA with Housing Price Prediction - Handling Missing Values 이번 포스트에서는 결측치를 처리하는 코드를 작성할 것이다. I. 구글 드라이브 연동 구글 코랩을 시작하면 언제든지 가장 먼저 해야 하는 것은 드라이브 연동이다. from google.colab import drive # 패키지 불러오기 from os.path import join ROOT = "/content/drive" # 드라이브 기본 경로 print(ROOT) # print content of ROOT (Optional) drive.mount(ROOT) # 드라이브 기본 경로 Mount MY_GOOGLE_DRIVE_PATH = 'My Drive/Colab Notebooks/inflearn_kaggle/' # 프로젝트 경로 PROJECT_PATH = join(ROOT, MY_GOOGLE_DRIVE_PATH) # 프로젝트 경로 print(PROJECT_PATH) /content/drive Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.

EDA with Housing Price Prediction - Handling Outliers

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 I. 개요 이제 본격적으로 Kaggle 데이터를 활용하여 분석을 진행한다. 데이터는 이미 다운 받은 상태를 전제로 하며, 만약에 데이터가 없다면 이전 포스팅에서 절차를 확인하기 바란다. (미리보기 가능) 캐글 데이터 다운로드 받기 (via Colab) II. 구글 드라이브 연동 구글 코랩을 시작하면 언제든지 가장 먼저 해야 하는 것은 드라이브 연동이다.

EDA with Housing Price Prediction - Handling Missing Values

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 I. 개요 이제 본격적으로 Kaggle 데이터를 활용하여 분석을 진행한다. 데이터는 이미 다운 받은 상태를 전제로 하며, 만약에 데이터가 없다면 이전 포스팅에서 절차를 확인하기 바란다. (미리보기 가능) 캐글 데이터 다운로드 받기 (via Colab) II. 구글 드라이브 연동 구글 코랩을 시작하면 언제든지 가장 먼저 해야 하는 것은 드라이브 연동이다.