Text Mining

Mecab 사용자 단어 사전 추가 in R, windows 10

개요 Mecab에서 사용자 단어를 추가하고 직접 사용하는 예제를 만들어본다. 사전에 Mecab은 설치가 되어 있다고 가정한다. 만약 처음 설치한다면, 다음 참조 링크에서 설치를 진행한다. 참조 : RcppMeCab 패키지 설치 (Windows) 문제점 아래그림과 같이 ‘사회적경제’라는 단어가 잡히지 않는 것을 확인할 수 있다. 해결방법 먼저, 사전 위치를 찾는다. mecab > user-dic 폴더 내에 nnp.csv 파일을 찾는다. 서식에 관한 구체적인 내용을 참조링크를 확인한다. 품사태그 설명 nnp.csv 파일을 메모장으로 열고 수정한다. 사용자 사전 수정 적용하기 위해 Window PowerShell을 관리자 권한으로 연다 mecab 폴더로 이동해야 하기 위해 아래와 같이 입력을 한다.

R 텍스트 마이닝 1일차 - 빅카인즈 데이터 수집

Step 01 - 빅카인즈 접속 후, 데이터 내려받기 싸이트 : https://www.bigkinds.or.kr/v2/news/index.do 해당 싸이트에서 키워드를 입력 한다. 이 때, 기간, 신문사 등을 선택할 수 있다. 필자는 키워드는 ‘사회적 경제’ 신문사는 국민일보, 조선일보, 중앙일보를 선택한다. 하단으로 내려 적용하기 버튼을 클릭한다. Step 03 - 분석 결과 및 시각화 탭을 클릭한다. 데이터 다운로드 탭 하단에 엑셀 다운로드 버튼을 클릭한다. 해당 파일에는 본문이 있지만, 보통 200자 내외로 짧게 요약이 되어 있다. Step 02 - 웹 크롤링 소스 코드 작성을 위한 사전 준비 먼저 기 다운로드 된 파일을 불러온다.