Python

(파이썬-Matplotlib) 시각화 튜토리얼 - 박스플롯

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 박스플롯 그래프 박스플롯(Box Plot) 그래프는 범주형 데이터 기준으로 수치형 데이터의 분포를 파악하는데 적합하다. 박스플롯을 보면, 최소값, 1분위값, 중간값, 3분위값, 최대값을 제공한다. (1) 라이브러리 불러오기 필요한 모듈을 불러온다. import matplotlib.pyplot as plt import numpy as np import seaborn as sns (2) 데이터 생성 이번에는 seaborn 패키지 내 iris 데이터를 활용한다.

(파이썬-Matplotlib) 시각화 튜토리얼 - 히스토그램

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 히스토그램 히스토그램 그래프는 연속형 변수의 분포를 그리는 데 사용된다. 연속형 변수 값은 필요한 빈(=bin) 수로 분활되어 x축에 표시되며, 각 빈에 포함되는 값의 카운트는 y축에 표시된다. y축에는 카운트 대신 총량의 백분율을 표시할 수 있으며, 이 경우 확률 분포를 나타내며, 이러한 그래프는 통계 분석에 사용된다.

Feature Engineering with Housing Price Prediction - Numerical Features

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 Feature Engineering를 이해하고 실습한다. 결측치를 처리한다 Categorical Feature를 다룬다. I. 사전 준비작업 Kaggle API 설치 후 데이터를 Kaggle에서 직접 가져오는 것을 구현한다. (1) Kaggle API 설치 구글 코랩에서 API를 불러오려면 다음 소스코드를 실행한다. !

Feature Engineering with Housing Price Prediction - Categorical Features

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 Feature Engineering를 이해하고 실습한다. 결측치를 처리한다 Categorical Feature를 다룬다. I. 사전 준비작업 Kaggle API 설치 후 데이터를 Kaggle에서 직접 가져오는 것을 구현한다. (1) Kaggle API 설치 구글 코랩에서 API를 불러오려면 다음 소스코드를 실행한다. !

Validation schemes for 2-nd level models

There are a number of ways to validate second level models (meta-models). In this reading material you will find a description for the most popular ones. If not specified, we assume that the data does not have a time component. We also assume we already validated and fixed hyperparameters for the first level models (models). Simple holdout scheme Split train data into three parts: partA and partB and partC. Fit N diverse models on partA, predict for partB, partC, test_data getting meta-features partB_meta, partC_meta and test_meta respectively.

Feature Engineering with Housing Price Prediction - Missing Values

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 Feature Engineering를 이해하고 실습한다. 결측치를 처리한다. I. 사전 준비작업 Kaggle API 설치 후 데이터를 Kaggle에서 직접 가져오는 것을 구현한다. (1) Kaggle API 설치 구글 코랩에서 API를 불러오려면 다음 소스코드를 실행한다. !pip install kaggle Requirement already satisfied: kaggle in /usr/local/lib/python3.

Python 통계 - 확률의 정의

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 확률기초이론 이산확률분포: 베르누이분포, 이항분포, 포아송분포 연속확률분포: 정규분포, 카이제곱분포, t-분포, F-분포 확률이란? 경험 또는 실험의 결과로 특정한 사건(event)이나 결과가 발생할 가능성 예1) 주사위 던져서 1이 나올 가능성 1/6 예2) 비가 올 가능성 30% (1) 확률의 정의 사건 A의 확률 = $\frac{n(A)}{N}$ N = 표본공간(=sample space) = 특정 실험에서 일어날 수 있는 모든 가능성

Python 통계 - T검정 예제

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 통계분석을 활용한 문제해결 과정 비즈니스에서 통계는 그저 툴이다. 통계를 몰라도 물건을 파는데 전혀 문제가 없다. 통계는 객관적인 근거를 확보하여 유효한 의사결정을 내리기 위한 그저 도구 (Tool) 이다. 따라서, 마케팅이나 CRM과 같은 경영이슈에서도 통계는 문제해결을 이한 체계적인 절차를 제공한다.

삼성카드 대회 Track-2 - 포지셔닝 분석(2)

대회 소개 삼성카드 데이터분석 공모전이 시행되고 있다. 대회에 처음 참여하는 아시아경제-수강생들을 위해 일종의 가이드라인으로 제안하고자 한다. 본 포스트에서는 기본적인 내용만 전달하고자 함을 밝힌다. Track2 과정은 마케팅 전략 제안이 중요하다! 포지셔닝 분석 개요 마케팅에서 자주 보는 분석 방법중의 하나는 포지셔닝(Positioning) 기법이다. 포지셔닝 분석은 마케팅 통계분석 기법중의 하나로, 기업이나, 상품, 브랜드 같은 개체들의 포지셔닝을 수행하는 다차원 척도법(MDS: Multi-Dimensional Scaling)과 상응분석(Correspondence Analysis)이 있다. 위 두가지 분석 방법 중 무엇을 사용해야 할까? 만약 데이터셋이 주로 등간척도, 비율척도와 같이 구성되어 있다면 다차원 척도법 만약 데이터셋이 주로 명목척도, 서열척도와 같이 구성되어 있다면 상응분석 현재 삼성카드 대회의 주 데이터셋은 명목척도 및 서열척도로 구성되어 있기 때문에 상응분석으로 시작하면 된다.

삼성카드 대회 Track-2 - 포지셔닝 분석(1)

대회 소개 삼성카드 데이터분석 공모전이 시행되고 있다. 대회에 처음 참여하는 아시아경제-수강생들을 위해 일종의 가이드라인으로 제안하고자 한다. 본 포스트에서는 기본적인 내용만 전달하고자 함을 밝힌다. Track2 과정은 마케팅 전략 제안이 중요하다! 포지셔닝 분석 개요 마케팅에서 자주 보는 분석 방법중의 하나는 포지셔닝(Positioning) 기법이다. 포지셔닝 분석은 마케팅 통계분석 기법중의 하나로, 기업이나, 상품, 브랜드 같은 개체들의 포지셔닝을 수행하는 다차원 척도법(MDS: Multi-Dimensional Scaling)과 상응분석(Correspondence Analysis)이 있다. 위 두가지 분석 방법 중 무엇을 사용해야 할까? 만약 데이터셋이 주로 등간척도, 비율척도와 같이 구성되어 있다면 다차원 척도법 만약 데이터셋이 주로 명목척도, 서열척도와 같이 구성되어 있다면 상응분석 현재 삼성카드 대회의 주 데이터셋은 명목척도 및 서열척도로 구성되어 있기 때문에 상응분석으로 시작하면 된다.