R

Mecab 사용자 단어 사전 추가 in R, windows 10

개요 Mecab에서 사용자 단어를 추가하고 직접 사용하는 예제를 만들어본다. 사전에 Mecab은 설치가 되어 있다고 가정한다. 만약 처음 설치한다면, 다음 참조 링크에서 설치를 진행한다. 참조 : RcppMeCab 패키지 설치 (Windows) 문제점 아래그림과 같이 ‘사회적경제’라는 단어가 잡히지 않는 것을 확인할 수 있다. 해결방법 먼저, 사전 위치를 찾는다. mecab > user-dic 폴더 내에 nnp.csv 파일을 찾는다. 서식에 관한 구체적인 내용을 참조링크를 확인한다. 품사태그 설명 nnp.csv 파일을 메모장으로 열고 수정한다. 사용자 사전 수정 적용하기 위해 Window PowerShell을 관리자 권한으로 연다 mecab 폴더로 이동해야 하기 위해 아래와 같이 입력을 한다.

R Selenium 설치 가이드 (Windows)

개요 R에서 Selenium을 설치하는 과정을 보여준다. 우선 자바가 설치되어 있는지 확인한다. 유투브에서 제목만 가져오는 Demo 코드를 작성한다. 자바를 모르시는 분 만약 자바 설치를 해본적이 없다면 아래 코드를 순차적으로 입력한다. install.packages("multilinguer") library(multilinguer) install_jdk() # Rtools 설치 필요 # https://cran.r-project.org/bin/windows/Rtools write('PATH="${RTOOLS40_HOME}\\usr\\bin;${PATH}"', file = "~/.Renviron", append = TRUE) Sys.which("make") install.packages(c("stringr", "hash", "tau", "Sejong", "RSQLite", "devtools"), type = "binary") install.packages("remotes") remotes::install_github("haven-jeon/KoNLP", upgrade = "never", INSTALL_opts = c("--no-multiarch")) library(KoNLP) useNIADic() 마지막 코드에서 콘솔창이 보인다면 정상적으로 설치가 완료가 된 것이다.

R 텍스트 마이닝 1일차 - 빅카인즈 데이터 수집

Step 01 - 빅카인즈 접속 후, 데이터 내려받기 싸이트 : https://www.bigkinds.or.kr/v2/news/index.do 해당 싸이트에서 키워드를 입력 한다. 이 때, 기간, 신문사 등을 선택할 수 있다. 필자는 키워드는 ‘사회적 경제’ 신문사는 국민일보, 조선일보, 중앙일보를 선택한다. 하단으로 내려 적용하기 버튼을 클릭한다. Step 03 - 분석 결과 및 시각화 탭을 클릭한다. 데이터 다운로드 탭 하단에 엑셀 다운로드 버튼을 클릭한다. 해당 파일에는 본문이 있지만, 보통 200자 내외로 짧게 요약이 되어 있다. Step 02 - 웹 크롤링 소스 코드 작성을 위한 사전 준비 먼저 기 다운로드 된 파일을 불러온다.

M1 Mac Tensorflow Installation in R

개요 M1 Mac에서 텐서플로를 설치 한다. 필자의 현재 M1 환경은 아래와 같다. sessionInfo() R version 4.1.2 (2021-11-01) Platform: aarch64-apple-darwin20 (64-bit) Running under: macOS Big Sur 11.6 Matrix products: default LAPACK: /Library/Frameworks/R.framework/Versions/4.1-arm64/Resources/lib/libRlapack.dylib locale: [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8 attached base packages: [1] stats graphics grDevices utils datasets methods base other attached packages: [1] ggplot2_3.3.5 dplyr_1.0.7 tfdatasets_2.7.0 keras_2.7.0 [5] reticulate_1.22 tensorflow_2.7.0 loaded via a namespace (and not attached): [1] Rcpp_1.0.7 compiler_4.1.2 pillar_1.6.4 prettyunits_1.1.1 [5] base64enc_0.1-3 tools_4.

RcppMeCab 패키지 설치 (Windows)

개요 Mecab-ko 형태소 분석기 사용 위해서는 Rcppmecab 패키지를 설치해야 함. RcppMeCab 패키지 설치 앞서서 설치할 파일이 있음. URL: https://github.com/junhewk/RcppMeCab/blob/master/README_kr.md 해당 깃허브에서 설치해야 할 파일을 다운로드 받은 후, “C:\mecab” 경로에 설치한다. 설치 파일 MeCab 프로그램: mecab-ko-0.9.2-msvc-3 MeCab 사전: mecab-ko-dic-2.1.1-20180720-msvc-2 위 파일을 다운로드 받은 후, “C:\mecab"에서 압축을 해제한다. RcppMecab 패키지 불러오기. 이제 패키지를 불러오도록 한다. 해당 패키지는 Github 버전으로 설치해야 하기 때문에 아래와 같이 설치를 한다. library(remotes) install_github("junhewk/RcppMeCab") Downloading GitHub repo junhewk/RcppMeCab@HEAD Installing 3 packages: BH, RcppParallel, Rcpp .

Home Credit Default - Data Visualization

공지 본 포스트는 재직자 교육을 위해 만든 강의안의 일부입니다. Introduction 대회 개요 Many people struggle to get loans due to insufficient or non-existent credit histories. And, unfortunately, this population is often taken advantage of by untrustworthy lenders. Home Credit strives to broaden financial inclusion for the unbanked population by providing a positive and safe borrowing experience. In order to make sure this underserved population has a positive loan experience, Home Credit makes use of a variety of alternative data–including telco and transactional information–to predict their clients’ repayment abilities.

tuber 패키지와 유투브 API를 활용한 Youtube 댓글 수집

공지 본 자료는 아래 책에서 일부 발췌 하였고, 해당 코드를 재응용하기 위해 노력하였습니다. 전체 원 소스 코드를 보시려면 책을 구매하시기를 바랍니다. 실무 예제로 끝내는 R 데이터 분석: 데이터 분석가에게 꼭 필요한 5가지 실무 예제로 분석 프로세스 이해하기 구입처: http://www.yes24.com/Product/Goods/103449758?OzSrank=1 개요 Youtube API에 등록 후, 댓글 수집 및 감성을 분석하는 과정을 담았습니다. 구글 API 프로젝트 생성하기 API 사용을 위해서는 구글 개발자 콘솔에 접속한다. URL: https://console.developers.google.com/ 아래와 같이 새로운 프로젝트 만들기를 클릭 한다.

Classification with Tidymodels

R
개요 새로운 ML 라이브러리인 tidymodels를 활용하여 분류 모델을 개발해본다. 데이터 데이터는 Loan Prediction Practice Problem에서 가져왔다. URL: https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/#ProblemStatement 회원가입 후, 대회 참여를 하면 3개의 파일을 다운로드 받을 수 있다. Train file, Test file, Submission File Data Dictionary Train 파일의 데이터 명세서는 다음과 같다. Test 파일의 데이터 명세서는 다음과 같다. Submission 파일의 데이터 명세서는 다음과 같다. 대회목적 대출 승인 여부를 결정하는 모델을 만드는 것이 대회의 주 목적이며. 평가지표는 분류모형의 Accurarcy로 결정한다. 패키지 및 데이터 불러오기 먼저 필수 패키지를 불러온다.

R Path Setting on MacOS

1줄 요약 터미널에서 R 실행이 안된다면 PATH를 설정한다. 문제 상황 MacOS 터미널에서 R을 실행하고 싶은데, 가끔 아래와 같은 에러 메시지가 나올때가 있다. $ R bash: R: command not found 문제 해결 이는 환경설정 문제이다. 즉, 이러한 경우에는 여러 솔루션이 있다. Ref. Running R from Mac OSX terminal 그 중에서 필자는 Fourth Solution: 선택하였다. $ export PATH="/Library/Frameworks/R.framework/Resources:$PATH" 그 후에 terminal에서 which R을 실행해본다. 아래와 같이 정상적으로 출력이 된다면, 환경설정은 잘 된 것이다.

Windows 10 KoNLP 설치

한줄 요약 KoNLP는 여기에서 무조건 해결한다. KoNLP 이슈 R에서 텍스트 마이닝을 진행할 때에는 반드시 한번쯤은 패키지 설치로 인해 어려움을 겪는다. - R 입문자 분들이 초반에 호기롭게 시작하였다가 대부분 포기하려고 하는 지점이기도 하다. 사실, 조금 더 간편한 방법이 나오기를 기대한다. 1단계 Java 설치 및 환경 변수 설정 주의: 윈도우 10 64비트 여러 좋은 자료들이 많아서 같이 참고하기를 바란다. Java 설치 관련: [JAVA] Windows에 자바 설치하기! 필자는 Java 8 version을 선택했다. 설치가 완료가 되면 아래 두개의 폴더가 있는지를 확인한다.