텍스트 마이닝

NLP - From Word2Vec TO GPT-3

개요 본 포스트는 자연어처리의 주요 흐름에 관해 간단하게 정리한 내용이다. 일종의 모음집이라고 하면 좋을 것 같다. 구체적인 자연어 이론에 대한 설명은 대해서는 유투브 영상 및 그 와 다양한 자료들을 참고하도록 하자. . 사전 학습의 개념 사전 학습 모델이란 기존에 자비어(Xavier) 등 임의의 값으로 초기화된 모델의 가중치들을 다른 문제(task)에 학습시킨 가중치들로 초기화하는 방법이다. 이미지 분류에서는 보통 전이학습이라는 용어를 사용하기도 했다. 자연어에서의 가장 대표적인 사전학습 모델이 버트와 GPT이다. 현재는 이러한 대부분의 자연어 처리 모델이 언어 모델을 사전 학습한 모델을 활용하도록 한다.

정형데이터와 함께하는 텍스트 마이닝

공지 해당 포스트는 취업 준비반 대상 강의 교재로 파이썬 머신러닝 완벽가이드를 축약한 내용입니다. 매우 좋은 책이니 가급적 구매하시기를 바랍니다. 개요 Mercari Price Suggestion Challenge는 캐글에서 진행된 과제이며, 제공되는 데이터 세트는 제품에 대한 여러 속성 및 제품 설명 등의 텍스트 데이터로 구성된다. 데이터 세트는 다음 링크에서 확인한다. https://www.kaggle.com/c/mercari-price-suggestion-challenge/data 데이터 다운로드 데이터를 다운로드 받도록 한다. !pip install kaggle !sudo apt install p7zip p7zip-full # 7z 파일을 풀기 위한 것이다. Requirement already satisfied: kaggle in /usr/local/lib/python3.

텍스트 마이닝 - 감성 분석

공지 해당 포스트는 취업 준비반 대상 강의 교재로 파이썬 머신러닝 완벽가이드를 축약한 내용입니다. 매우 좋은 책이니 가급적 구매하시기를 바랍니다. 감성 분석 개요 문서의 주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법으로 소셜 미디어, 여론조사, 온라인 리뷰, 피드백 등 다양한 분야에서 활용되고 있다. 감성 분석은 크게 지도학습 & 비지도학습 방식으로 수행된다. 데이터는 캐글 대회 데이터를 활용하였다. 따라서, 본 포스트에서는 지도학습 기반과 비지도학습 기반의 감성 분석을 실습한다. 데이터 불러오기 각각 필요한 데이터를 불러오도록 한다. from google.

텍스트 마이닝 - 뉴스 분류

공지 해당 포스트는 취업 준비반 대상 강의 교재로 파이썬 머신러닝 완벽가이드를 축약한 내용입니다. 매우 좋은 책이니 가급적 구매하시기를 바랍니다. 텍스트 분류 실습 - 뉴스그룹 분류 개요 사이킷런은 fetch_20newsgroups API를 이용해 뉴스그룹의 분류를 수행해 볼 수 있는 예제 데이터 활용 가능함. 희소 행렬에 분류를 효과적으로 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등임. 텍스트 정규화 fetch_20newsgroups()는 인터넷에서 데이터를 받은 후, 올리는 것이기 때문에 인터넷 연결 유무를 확인한다.

텍스트 마이닝 - 희소행렬

공지 해당 포스트는 취업 준비반 대상 강의 교재로 파이썬 머신러닝 완벽가이드를 축약한 내용입니다. 매우 좋은 책이니 가급적 구매하시기를 바랍니다. 개요 피처 벡터화에 있어서의 희소행렬에 대해 배운다. BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소 행렬이다. 희소행렬 희소 행렬은 너무 많은 불필요한 0 값이 메모리 공간에 할당되어 메모리 공간을 많이 차지하는데 있다. 다음 그림을 살펴보자. 이러한 희소 행렬을 물리적으로 적은 메모리 공간을 차지할 수 있도록 변환해야 하는데, 이 때, COO와 CSR 형식이 존재한다.

텍스트 마이닝 - Bag of Words

공지 해당 포스트는 취업 준비반 대상 강의 교재로 파이썬 머신러닝 완벽가이드를 축약한 내용입니다. 매우 좋은 책이니 가급적 구매하시기를 바랍니다. I. 개요 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여하여 피처 값을 추출하는 모델을 말한다. 아래와 같은 세 개의 문장이 있다고 가정해본다. Doc 1: I love dogs. Doc 2: I hate dogs and knitting. Doc 3: Knitting is my hobby and passion. 위 문장을 각각의 행렬로 표현하면 아래와 같다.

텍스트 마이닝 - 텍스트 전처리

I. 개요 NLP(Natural Language Processing): 기계가 인간의 언어를 이해하고 해석하는 데 중점 활용예제: 기계 번역, 챗봇, 질의응답 시스템 (딥러닝) Text Analysis: 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점 활용예제: 비즈니스 인텔리전스, 예측분석 (머신러닝) 텍스트 분석의 예 텍스트 분류: 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법 감성 분석: 텍스트에서 나타나는 감정/판단/믿음/의견 등의 주관적인 요소 분석하는 기법 텍스트 요약: 텍스트 내에서의 중요한 주제나 중심 사상 추출(Topic Modeling) 텍스트 군집화(Clustering)와 유사도 측정: 비슷한 유형의 문서에 대해 군집화를 수행하는 기법.