Pythons

입문자를 위한 머신러닝 - 오차행렬

용어 정리 영어로는 confusion matrix로 불리우지만, 번역하면서 다양한 단어가 등장하고 있다. 오차행렬, 혼동행렬 제목은 오차행렬이라고 표현했지만, 영어 단어를 그대로 살려 confusion matrix라고 활용한다. Confusion Matrix 분류 모형을 통해 머신러닝을 학습하게 되면 confusion matrix 표를 우선 작성하게 된다. 이 표에서 무엇을 볼 수 있는가? 우선 전체 데이터의 크기를 확인할 수 있다. (165명) 예측값 YES는 (100+10) 110명이고, 예측값 NO는 (50+5) 55명이다. 실제값 YES는 (100+5) 105명이고, 실제값 NO는 (50+10) 60명이다. 기본 영어를 정의해본다.

입문자를 위한 머신러닝 - GBM

공지 본 소스코는 교재 파이썬 머신러닝 완벽 가이드 코드를 제 수업을 드는 학생들이 보다 편하게 구글 코랩에서 사용할 수 있도록 만든 예제입니다. 책 구매하세요! http://www.yes24.com/Product/Goods/87044746?OzSrank=1 Gradient Boosting Machine 이제 GBM에 대해 학습하도록 합니다. GBM에 대해 이해하기 위해서는 경사하강법에 대해 배워야 합니다. 경사하강법은 쉽게 말하면 가장 적은 오차를 찾아가는 방법론 중이 하나입니다. 자세한 내용은 유투 강의를 들어주시기를 바랍니다. (Gradient Descent, Step-by-Step) 위 이론을 sklearn에서 구현한 것이며, 이 이론을 기반으로 다양한 알고리즘이 개발 되어 있습니다.

입문자를 위한 머신러닝 - 랜덤 포레스트

공지 본 포스트는 교재 파이썬 머신러닝 완벽 가이드 코드를 제 수업을 드는 학생들이 보다 편하게 구글 코랩에서 사용할 수 있도록 만든 예제입니다. 책 구매하세요! http://www.yes24.com/Product/Goods/87044746?OzSrank=1 Random Forest 랜덤 포레스트의 개요 배깅의 대표적인 알고리즘 랜덤 포레스트는 개별 트리가 학습하는 데이터 세트는 전체 데이터에서 일부가 중첩되게 샘플링 된 데이터 세트 부트스트래핑 부할 방식 채택 참고 강의 이론 https://www.youtube.com/watch?v=Z97uDTsvojY https://www.youtube.com/watch?v=J4Wdy0Wc_xQ !wget https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.zip !unzip 'UCI HAR Dataset.zip' !mv UCI\ HAR\ Dataset human_activity --2020-11-27 05:21:51-- https://archive.

텍스트 마이닝 - 희소행렬

공지 해당 포스트는 취업 준비반 대상 강의 교재로 파이썬 머신러닝 완벽가이드를 축약한 내용입니다. 매우 좋은 책이니 가급적 구매하시기를 바랍니다. 개요 피처 벡터화에 있어서의 희소행렬에 대해 배운다. BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소 행렬이다. 희소행렬 희소 행렬은 너무 많은 불필요한 0 값이 메모리 공간에 할당되어 메모리 공간을 많이 차지하는데 있다. 다음 그림을 살펴보자. 이러한 희소 행렬을 물리적으로 적은 메모리 공간을 차지할 수 있도록 변환해야 하는데, 이 때, COO와 CSR 형식이 존재한다.

텍스트 마이닝 - Bag of Words

공지 해당 포스트는 취업 준비반 대상 강의 교재로 파이썬 머신러닝 완벽가이드를 축약한 내용입니다. 매우 좋은 책이니 가급적 구매하시기를 바랍니다. I. 개요 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여하여 피처 값을 추출하는 모델을 말한다. 아래와 같은 세 개의 문장이 있다고 가정해본다. Doc 1: I love dogs. Doc 2: I hate dogs and knitting. Doc 3: Knitting is my hobby and passion. 위 문장을 각각의 행렬로 표현하면 아래와 같다.

텍스트 마이닝 - 텍스트 전처리

I. 개요 NLP(Natural Language Processing): 기계가 인간의 언어를 이해하고 해석하는 데 중점 활용예제: 기계 번역, 챗봇, 질의응답 시스템 (딥러닝) Text Analysis: 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점 활용예제: 비즈니스 인텔리전스, 예측분석 (머신러닝) 텍스트 분석의 예 텍스트 분류: 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법 감성 분석: 텍스트에서 나타나는 감정/판단/믿음/의견 등의 주관적인 요소 분석하는 기법 텍스트 요약: 텍스트 내에서의 중요한 주제나 중심 사상 추출(Topic Modeling) 텍스트 군집화(Clustering)와 유사도 측정: 비슷한 유형의 문서에 대해 군집화를 수행하는 기법.

List to Pandas

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 List는 파이썬 데이터 타입의 기본 자료형이다. Pandas 데이터 분석을 위한 기본적인 자료형이다. List에서 Pandas로 변환하는 작업의 다양한 방법을 활용해본다. 방법 1. 기초 List를 생성한 후, 데이터프레임으로 변환한다. 여기에서는 column과 index값을 확인해본다. import pandas as pd lst = ["Korea", "Japan", "USA", "China", "Russia"] data = pd.

Seaborn intro - Correlation Heatmap

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 Seaborn 개요 Matplotlib 라이브러리가 Python에서 제공하는 기본적인 시각화 도구이지만, 기본객체는 리스트 형태를 따르기 때문에, 엑셀 데이터, 즉 데이터 프레임에 익숙한 사용자들에게는 조금 불친절한 것은 아쉬움이 있습니다. 실제, 입문자를 대상으로 강의를 할 때에도 Seaborn부터 알려드리는데, 그 이유는 Pandas를 활용한 데이터 가공 직후에 보다 쉽게 연동할 수 있도록 Seaborn이 개발되었기 때문입니다.

Python 통계 - 비모수 통계

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 분포에 대한 가정을 만족 못할 시의 문제점 1종 오류의 값이 커지거나, 분석 결과 자체에 대한 신뢰성이 떨어짐 1종 오류 및 2종 오류의 차이 모수 통계 분석 적용 못할 시, 비모수 통계 분석 활용 (1) 언제 적용할까?

Seaborn Intro - Countplot

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 Seaborn 개요 Matplotlib 라이브러리가 Python에서 제공하는 기본적인 시각화 도구이지만, 기본객체는 리스트 형태를 따르기 때문에, 엑셀 데이터, 즉 데이터 프레임에 익숙한 사용자들에게는 조금 불친절한 것은 아쉬움이 있습니다. 실제, 입문자를 대상으로 강의를 할 때에도 Seaborn부터 알려드리는데, 그 이유는 Pandas를 활용한 데이터 가공 직후에 보다 쉽게 연동할 수 있도록 Seaborn이 개발되었기 때문입니다.