입문자를 위한 머신러닝 분류 튜토리얼 - Decision Tree

개요 사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리이다. 파이썬에서 나오는 최신 알고리즘들도 이제는 사이킷런에 통합하는 형태로 취하고 있다. 구글 코랩은 기본적으로 사이킷런까지 설치가 완료되기에 별도의 설치가 필요없는 장점이 있다. Note: 본 포스트는 머신러닝 자체를 처음 접하는 분들을 위한 것이기 때문에, 어느정도 경험이 있으신 분들은 필자의 다른 포스트를 읽어주시기를 바랍니다. 패키지 불러오기 패키지는 시간에 지남에 따라 계속 업그레이드가 되기 때문에 꼭 버전 체크를 하는 것을 권장한다. 필자가 글을 남겼을 때는 2020년 8월 16일에 작성했음을 기억하자.

입문자를 위한 머신러닝 분류 튜토리얼 - IRIS 분류

개요 사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리이다. 파이썬에서 나오는 최신 알고리즘들도 이제는 사이킷런에 통합하는 형태로 취하고 있다. 구글 코랩은 기본적으로 사이킷런까지 설치가 완료되기에 별도의 설치가 필요없는 장점이 있다. Note: 본 포스트는 머신러닝 자체를 처음 접하는 분들을 위한 것이기 때문에, 어느정도 경험이 있으신 분들은 필자의 다른 포스트를 읽어주시기를 바랍니다. 패키지 불러오기 패키지는 시간에 지남에 따라 계속 업그레이드가 되기 때문에 꼭 버전 체크를 하는 것을 권장한다. 필자가 글을 남겼을 때는 2020년 8월 16일에 작성했음을 기억하자.

Data Science Resources

개요 제 개인 참조하려고 만든 게시글입니다. 언제나 좋은 글 및 싸이트, 패키지를 만들어 배포하는 모든 Data Scientist, Analyst 분들 존경합니다. (1) Tools R with Google Colab 이미지 다운로더 I. 머신러닝/딥러닝 관련 자료 (1) 머신러닝 XGBoost Lightgbm Documentation: https://lightgbm.readthedocs.io/en/latest/ LightGBM R-Packages Regression metrics review I Weighted Median Evaluation Metrics for Classification Problems: Quick Examples + References Decision Trees: “Gini” vs. “Entropy” criteria Understanding ROC curves Learning to Rank using Gradient Descent Overview of further developments of RankNet RankLib Learning to Rank Overview Clustering Complete Machine Learning Guide to Parameter Tuning in Gradient Boosting (GBM) in Python Matrix Factorization Overview of Matrix Decomposition methods (sklearn) t-SNE Multicore t-SNE implementation Comparison of Manifold Learning methods (sklearn) How to Use t-SNE Effectively (distill.

NumPy with ndarray

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 Numpy ndarray 개요 넘파이 array()는 ndarray로 변환 가능 생성된 ndarray배열의 shape변수는 ndarray의 크기, 행과 열의 수를 튜플 형태로 가지고 있으며, 이를 통해 ndarray 배열의 차원까지 알 수 있음 (1) 배열이란? NumPy에서 배열은 동일한 타입의 값을 가짐 shape는 각 차원의 크기를 튜플로 표시한다.

xgboost and kaggle with R

개요 R 강의를 진행하면서 xgboost를 R로 구현하고 싶었다. kaggle에 있는 데이터를 불러와서 제출까지 가는 과정을 담았으니 입문자들에게 작은 도움이 되기를 바란다. XGBoost 개요 논문 제목 - XGBoost: A Scalable Tree Boosting System 논문 게재일: Wed, 9 Mar 2016 01:11:51 UTC (592 KB) 논문 저자: Tianqi Chen, Carlos Guestrin 논문 소개 Tree boosting is a highly effective and widely used machine learning method. In this paper, we describe a scalable end-to-end tree boosting system called XGBoost, which is used widely by data scientists to achieve state-of-the-art results on many machine learning challenges.

Kaggle with R

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 R 입문부터 머신러닝까지 가르치게 되었다. R을 활용한 빅데이터 분석 실제 Kaggle 대회 참여 독려를 위해 R에서 Kaggle 데이터를 불러와 머신러닝을 진행하는 것을 기획하였다. pins 패키지를 활용하면 보다 쉽게 할 수 있다. (1) Kaggle API with R 먼저 [Kaggle]에 회원 가입을 한다.

ch 13 - Reliability

Intro PLS-SEM의 분석과정에서 척도(측정변수와 잠재변수)의 신뢰도와 타당도를 확보하는 것은 매우 중요하며, 신뢰도와 타당도가 확보되지 않으면 모델 추정 결과가 의미가 없기 때문임 즉, 구조모델의 추정을 실행하려면 사전에 반드시 측정모델에 대한 평가과정을 통해 신뢰도와 타당도 확보 필요 I. 주요 개념 (1) 신뢰도 잠재변수의 측정에 있어서 얼마나 일관성이 있는가의 정도 의미 검사도구의 일관성을 말하며, 일관성이란 잠재변수를 여러 번에 걸쳐 측정했을 때 매번 같은 결과를 도출할 수 있는 정도. 내적 일관성 신뢰(Internal Consistency Reliability)로 평가 (2) 타당도 타당도의 기본 정의는 실제 측정하고자 하는 잠재변수를 정확하게 측정하고 있는 정도 PLS-SEM에서는 집중타당도(Convergent Validity)와 판별타당도(Discriminant Validity)를 사용한다.

Global Development Resources

공지 제 전공과 관련하여 주요 자료를 정리하였습니다. 데이터과학의 다양한 이론 중에서 국제개발에 적용시킬만한 내용이 무엇인지 고민하며 계속적으로 자료를 업데이트 할 예정입니다. OECD 자료 DAC Peer Review Reference Guide 대략 5년 마다 한번씩 각 회원국들의 개발협력 정책과 사업들에 대해 면밀히 검토를 하고 있으며, 연간 6개 회원국들을 대상으로 한다. 이 때, 위 문서를 근거로 동료 평가를 시행한다. OECD Development Co-operation Peer Reviews: Korea 2018 한국어: OECD 개발협력 동료검토 Peer Reviews 대한민국 2018 UN 자료 The Sustainable Development Goals Report 2020 Project Management Project Cycle Management Project Design Matrix Logical Framework Approach

ch 12 - Demographic of Respondent in R

Intro 지난 시간에 설문조사 전처리에 대해 배웠다면 이번에는 경영/사회과학 논문에서 필수적으로 기재해야 하는 표본의 특성을 간단한 프로그램으로 요약하는 것을 코딩한다. (1) 주요 패키지 이번 포스트부터 gt 패키지를 사용하려고 한다. gt: ggplot2와 같이 Table를 문법으로 컨트롤 할 수 있도록 구현된 패키지이다. kableExtra: HTML로 출력할 수 있도록 도와주는 패키지이다. library(readr) library(dplyr) library(gt) library(gtsummary) I. 데이터 가져오기 우선 데이터를 불러온다. data <- read_csv('data/thesis_mater.csv') %>% distinct() %>% # 중복데이터 제거 rename(Position = founder_employee, # 출력을 위한 변수명 정리 Age = age_of_respondent, Education = Education_Level) glimpse(data %>% select(Firm_Age:Business_Area)) 전체 34개의 변수 중에서, 문자열 관련 데이터만 추출하였다.

ch05 - Log Scale Visualisation

공지 본 포스트는 데이터 시각화 교과서 내용의 일부를 요약하였다. 본 포스트를 읽고 가급적 전체 내용 숙지를 위해 구매하는 것을 권유한다. 개요 수치형 자료를 Y축으로 놓는 그래프는 언제나 힘들었다. log Scale을 통해 값의 크기를 줄이기는 하지만, Y축을 어떻게 표현하는 것이 좋을지에 대한 고민은 늘 있어왔다. 시각화 이론 중심의 포스팅이기에 코드 리뷰 및 해석은 생략한다. 문제점 log Scale을 적용했을 때와 그렇지 않을 때의 그래프를 비교해본다. (1) 패키지 불러오기 각각의 패키지를 불러온다. 이 때, 데이터는 dviz.