개요 캐글 데이터를 불러오는 방법에 대해 숙지한다. 머신러닝의 일반적인 내용에 대해 숙지한다. I. 사전 준비작업 Kaggle API 설치 및 연동해서 GCP에 데이터를 적재하는 것까지 진행한다. (1) Kaggle API 설치 구글 코랩에서 API를 불러오려면 다음 소스코드를 실행한다. !pip install kaggle Requirement already satisfied: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6) Requirement already satisfied: urllib3<1.25,>=1.21.1 in /usr/local/lib/python3.6/dist-packages (from kaggle) (1.24.3) Requirement already satisfied: certifi in /usr/local/lib/python3.6/dist-packages (from kaggle) (2020.6.20) Requirement already satisfied: tqdm in /usr/local/lib/python3.6/dist-packages (from kaggle) (4.
대회 소개 삼성카드 데이터분석 공모전이 시행되고 있다. 대회에 처음 참여하는 아시아경제-수강생들을 위해 일종의 가이드라인으로 제안하고자 한다. 본 포스트에서는 기본적인 내용만 전달하고자 함을 밝힌다. Track2 과정은 마케팅 전략 제안이 중요하다! 환경 세팅 먼저, 데이터가 모두 한글로 구성이 되어 있기 때문에 한글파일 설정부터 진행한다. 한글파일 설정이 완료되면 구글 드라이브와 연동한다. 데이터 시각화를 진행한다. %config InlineBackend.figure_format = 'retina' !sudo apt-get -qq -y install fonts-nanum The following package was automatically installed and is no longer required: libnvidia-common-440 Use 'apt autoremove' to remove it.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 데이터 개요 German Credit Card를 활용하여 데이터를 가공하도록 한다. 데이터셋에 대한 설명은 Kaggle에서 확인한다. import pandas as pd print(pd.__version__) 1.0.5 url = 'https://raw.githubusercontent.com/chloevan/kaggle2portpolio/master/datasets/german_credit_data.csv' german_credit = pd.read_csv(url) german_credit.head(3) Unnamed: 0 Age Sex Job Housing Saving accounts Checking account Credit amount Duration Purpose 0 0 67 male 2 own NaN little 1169 6 radio/TV 1 1 22 female 2 own little moderate 5951 48 radio/TV 2 2 49 male 1 own little NaN 2096 12 education Pandas DataFrame은 Index와 나머지 열로 구성이 되어 있다.
개요 교차검증의 의미를 이해한다. 교차검증을 위한 간단한 실습을 진행한다. 교차검증이란 교차검증은 기본적으로 과적합을 예방하기 위한 방법론 중 하나이다. 교차검증을 쉽게 이해하는 방법은 수능시험을 보기 위해 수능과 비슷한 유형의 모의고사를 보는 것과 같다. (1) K폴드 교차검증 개요 데이터의 수가 적을 때 사용한다. 검증 데이터의 수도 적기 때문에 검증 성능의 신뢰도가 떨어진다. 이 때, K-폴드 방법을 사용한다. 그림을 보며 이해하자. 데이터의 편향을 방지하기 위한 것 데이터를 K개로 나누어 K-1개를 분할하고 나머지는 평가에 사용 모델의 검증 점수는 K개의 검증 점수 평균이 된다.
개요 사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리이다. 파이썬에서 나오는 최신 알고리즘들도 이제는 사이킷런에 통합하는 형태로 취하고 있다. 구글 코랩은 기본적으로 사이킷런까지 설치가 완료되기에 별도의 설치가 필요없는 장점이 있다. Note: 본 포스트는 머신러닝 자체를 처음 접하는 분들을 위한 것이기 때문에, 어느정도 경험이 있으신 분들은 필자의 다른 포스트를 읽어주시기를 바랍니다. 패키지 불러오기 패키지는 시간에 지남에 따라 계속 업그레이드가 되기 때문에 꼭 버전 체크를 하는 것을 권장한다. 필자가 글을 남겼을 때는 2020년 8월 16일에 작성했음을 기억하자.
개요 사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리이다. 파이썬에서 나오는 최신 알고리즘들도 이제는 사이킷런에 통합하는 형태로 취하고 있다. 구글 코랩은 기본적으로 사이킷런까지 설치가 완료되기에 별도의 설치가 필요없는 장점이 있다. Note: 본 포스트는 머신러닝 자체를 처음 접하는 분들을 위한 것이기 때문에, 어느정도 경험이 있으신 분들은 필자의 다른 포스트를 읽어주시기를 바랍니다. 패키지 불러오기 패키지는 시간에 지남에 따라 계속 업그레이드가 되기 때문에 꼭 버전 체크를 하는 것을 권장한다. 필자가 글을 남겼을 때는 2020년 8월 16일에 작성했음을 기억하자.
개요 Kaggle 대회인 `Titanic’대회를 통해 분류 모형을 만들어본다. 본 강의는 수업 자료의 일부로 작성되었다. I. 사전 준비작업 Kaggle API 설치 및 연동해서 GCP에 데이터를 적재하는 것까지 진행한다. (1) Kaggle API 설치 구글 코랩에서 API를 불러오려면 다음 소스코드를 실행한다. !pip install kaggle Requirement already satisfied: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6) Requirement already satisfied: requests in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.23.0) Requirement already satisfied: urllib3<1.25,>=1.21.1 in /usr/local/lib/python3.6/dist-packages (from kaggle) (1.24.3) Requirement already satisfied: python-slugify in /usr/local/lib/python3.
개요 주택가격을 예측하는 데 필요한 Kaggle 데이터를 불러와서 빅쿼리에 저장하는 실습 진행 데이터를 불러와서 LightGBM를 활용하여 머신러닝을 만든다. I. 사전 준비작업 Kaggle API 설치 및 연동해서 GCP에 데이터를 적재하는 것까지 진행한다. (1) Kaggle API 설치 구글 코랩에서 API를 불러오려면 다음 소스코드를 실행한다. !pip install kaggle Requirement already satisfied: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6) Requirement already satisfied: six>=1.10 in /usr/local/lib/python3.6/dist-packages (from kaggle) (1.12.0) Requirement already satisfied: requests in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.23.0) Requirement already satisfied: certifi in /usr/local/lib/python3.
I. 지도 학습 VS 비지도 학습 머신러닝은 크게 두 가지 유형으로 분류한다. 우선 아래 표를 보자.
구분 지도학습(Supervised Learning) 비지도 학습(Unsupervised Learning) 알고리즘(분석모형) 회귀분석분류모형 군집분석 특징 정답을 알고 있는 상태에서 학습모형 평가 방법이 다양한 편 정답이 없는 상태에서 서로 비슷한 데이터를 찾아서 그룹화모형 평가 방법이 제한적 지도학습(Supervised Learning)은 종속변수(Dependent Variable) 선정이 매우 중요하며. 종속변수 선정과 함께 데이터 분석도 같이 병행이 된다. 그러나 비지도학습(Unsupervised Learning)은 데이터가 많은데, 어떻게 분류하면 좋을지 모를 때 서로 비슷한 특징끼리 결합 및 그룹화 하는 것을 말한다.
I 지도 학습 VS 비지도 학습 머신러닝은 크게 두 가지 유형으로 분류한다. 우선 아래 표를 보자.
구분 지도학습(Supervised Learning) 비지도 학습(Unsupervised Learning) 알고리즘(분석모형) 회귀분석분류모형 군집분석 특징 정답을 알고 있는 상태에서 학습모형 평가 방법이 다양한 편 정답이 없는 상태에서 서로 비슷한 데이터를 찾아서 그룹화모형 평가 방법이 제한적 지도학습(Supervised Learning)은 종속변수(Dependent Variable) 선정이 매우 중요하며. 종속변수 선정과 함께 데이터 분석도 같이 병행이 된다. 그러나 비지도학습(Unsupervised Learning)은 데이터가 많은데, 어떻게 분류하면 좋을지 모를 때 서로 비슷한 특징끼리 결합 및 그룹화 하는 것을 말한다.