Validation schemes for 2-nd level models

There are a number of ways to validate second level models (meta-models). In this reading material you will find a description for the most popular ones. If not specified, we assume that the data does not have a time component. We also assume we already validated and fixed hyperparameters for the first level models (models). Simple holdout scheme Split train data into three parts: partA and partB and partC. Fit N diverse models on partA, predict for partB, partC, test_data getting meta-features partB_meta, partC_meta and test_meta respectively.

Feature Engineering with Housing Price Prediction - Missing Values

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 Feature Engineering를 이해하고 실습한다. 결측치를 처리한다. I. 사전 준비작업 Kaggle API 설치 후 데이터를 Kaggle에서 직접 가져오는 것을 구현한다. (1) Kaggle API 설치 구글 코랩에서 API를 불러오려면 다음 소스코드를 실행한다. !pip install kaggle Requirement already satisfied: kaggle in /usr/local/lib/python3.

Python 통계 - 확률의 정의

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 확률기초이론 이산확률분포: 베르누이분포, 이항분포, 포아송분포 연속확률분포: 정규분포, 카이제곱분포, t-분포, F-분포 확률이란? 경험 또는 실험의 결과로 특정한 사건(event)이나 결과가 발생할 가능성 예1) 주사위 던져서 1이 나올 가능성 1/6 예2) 비가 올 가능성 30% (1) 확률의 정의 사건 A의 확률 = $\frac{n(A)}{N}$ N = 표본공간(=sample space) = 특정 실험에서 일어날 수 있는 모든 가능성

Python 통계 - T검정 예제

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 통계분석을 활용한 문제해결 과정 비즈니스에서 통계는 그저 툴이다. 통계를 몰라도 물건을 파는데 전혀 문제가 없다. 통계는 객관적인 근거를 확보하여 유효한 의사결정을 내리기 위한 그저 도구 (Tool) 이다. 따라서, 마케팅이나 CRM과 같은 경영이슈에서도 통계는 문제해결을 이한 체계적인 절차를 제공한다.

삼성카드 대회 Track-2 - 포지셔닝 분석(2)

대회 소개 삼성카드 데이터분석 공모전이 시행되고 있다. 대회에 처음 참여하는 아시아경제-수강생들을 위해 일종의 가이드라인으로 제안하고자 한다. 본 포스트에서는 기본적인 내용만 전달하고자 함을 밝힌다. Track2 과정은 마케팅 전략 제안이 중요하다! 포지셔닝 분석 개요 마케팅에서 자주 보는 분석 방법중의 하나는 포지셔닝(Positioning) 기법이다. 포지셔닝 분석은 마케팅 통계분석 기법중의 하나로, 기업이나, 상품, 브랜드 같은 개체들의 포지셔닝을 수행하는 다차원 척도법(MDS: Multi-Dimensional Scaling)과 상응분석(Correspondence Analysis)이 있다. 위 두가지 분석 방법 중 무엇을 사용해야 할까? 만약 데이터셋이 주로 등간척도, 비율척도와 같이 구성되어 있다면 다차원 척도법 만약 데이터셋이 주로 명목척도, 서열척도와 같이 구성되어 있다면 상응분석 현재 삼성카드 대회의 주 데이터셋은 명목척도 및 서열척도로 구성되어 있기 때문에 상응분석으로 시작하면 된다.

삼성카드 대회 Track-2 - 포지셔닝 분석(1)

대회 소개 삼성카드 데이터분석 공모전이 시행되고 있다. 대회에 처음 참여하는 아시아경제-수강생들을 위해 일종의 가이드라인으로 제안하고자 한다. 본 포스트에서는 기본적인 내용만 전달하고자 함을 밝힌다. Track2 과정은 마케팅 전략 제안이 중요하다! 포지셔닝 분석 개요 마케팅에서 자주 보는 분석 방법중의 하나는 포지셔닝(Positioning) 기법이다. 포지셔닝 분석은 마케팅 통계분석 기법중의 하나로, 기업이나, 상품, 브랜드 같은 개체들의 포지셔닝을 수행하는 다차원 척도법(MDS: Multi-Dimensional Scaling)과 상응분석(Correspondence Analysis)이 있다. 위 두가지 분석 방법 중 무엇을 사용해야 할까? 만약 데이터셋이 주로 등간척도, 비율척도와 같이 구성되어 있다면 다차원 척도법 만약 데이터셋이 주로 명목척도, 서열척도와 같이 구성되어 있다면 상응분석 현재 삼성카드 대회의 주 데이터셋은 명목척도 및 서열척도로 구성되어 있기 때문에 상응분석으로 시작하면 된다.

머신러닝 알고리즘 - 결정트리 회귀모형

I. 개요 결정트리 회귀 모형에 대해 배우도록 한다. 트리모형의 일반적인 특징에 대해 익힌다. II. 결정 트리 모형 결정 트리는 분류, 회귀, 다중출력 작업도 가능한 활용범위가 많은 머신러닝 알고리즘이다. 결정 트리는 최근에 사용하는 랜덤포레스트, XGboost, LightGBM과 같은 모형의 기본 구성 요소이다. (1) 의사결정 나무 예제 의사 결정 나무에서 자주 사용되는 예제를 우선 확인해보자. 먼저, 데이터셋을 기준으로 IRIS 붓꽃의 종류는 아래와 같이 3가지로 구성되어 있다. Versicolor, Setosa, Virginica 위 이미지에서 보는 것처럼, 종에 따라 잎의 크기가 다른 것을 확인할 수 있다.

Python 통계 - 포지셔닝 분석(2)

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 포지셔닝 분석 개요 마케팅에서 자주 보는 분석 방법중의 하나는 포지셔닝(Positioning) 기법이다. 포지셔닝 분석은 마케팅 통계분석 기법중의 하나로, 기업이나, 상품, 브랜드 같은 개체들의 포지셔닝을 수행하는 다차원 척도법(MDS: Multi-Dimensional Scaling)과 상응분석(Correspondence Analysis)이 있다. 위 두가지 분석 방법 중 무엇을 사용해야 할까?

Python 통계 - 포지셔닝 분석(1)

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 포지셔닝 분석 개요 마케팅에서 자주 보는 분석 방법중의 하나는 포지셔닝(Positioning) 기법이다. 포지셔닝 분석은 마케팅 통계분석 기법중의 하나로, 기업이나, 상품, 브랜드 같은 개체들의 포지셔닝을 수행하는 다차원 척도법(MDS: Multi-Dimensional Scaling)과 상응분석(Correspondence Analysis)이 있다. 위 두가지 분석 방법 중 무엇을 사용해야 할까?

삼성카드 대회 Track-2 - matplotlib 막대 그래프

대회 소개 삼성카드 데이터분석 공모전이 시행되고 있다. 대회에 처음 참여하는 아시아경제-수강생들을 위해 일종의 가이드라인으로 제안하고자 한다. 본 포스트에서는 기본적인 내용만 전달하고자 함을 밝힌다. Track2 과정은 마케팅 전략 제안이 중요하다! 환경 세팅 먼저, 데이터가 모두 한글로 구성이 되어 있기 때문에 한글파일 설정부터 진행한다. 한글파일 설정이 완료되면 구글 드라이브와 연동한다. 데이터 시각화를 진행한다. %config InlineBackend.figure_format = 'retina' !sudo apt-get -qq -y install fonts-nanum fonts-nanum is already the newest version (20170925-1). The following package was automatically installed and is no longer required: libnvidia-common-440 Use 'apt autoremove' to remove it.