R 프로그램 설치 싸이트 : https://www.r-project.org/ download R 클릭 0-Cloud 선택 각 OS에 맞는 버전 설치, 여기서는 Windows 선택 Windows의 경우 아래와 같이 나타난다. Download R-4.2.3 for Windows 설치 다운로드 받은 설치 파일을 관리자 권한으로 실행한다. 언어는 한국어로 해도 상관없지만, 필자는 주로 영어로 선택해서 했기 때문에, 영어로 진행하도록 한다. 특별하게 주의 깊게 살펴서 해야 할 항목은 없기 때문에, Next 버튼을 순차적으로 클릭한다. R설치가 정상적으로 완료가 되면, 바탕화면에 R 로고가 나타날 것이다.
개요 Mecab에서 사용자 단어를 추가하고 직접 사용하는 예제를 만들어본다. 사전에 Mecab은 설치가 되어 있다고 가정한다. 만약 처음 설치한다면, 다음 참조 링크에서 설치를 진행한다. 참조 : RcppMeCab 패키지 설치 (Windows) 문제점 아래그림과 같이 ‘사회적경제’라는 단어가 잡히지 않는 것을 확인할 수 있다. 해결방법 먼저, 사전 위치를 찾는다. mecab > user-dic 폴더 내에 nnp.csv 파일을 찾는다. 서식에 관한 구체적인 내용을 참조링크를 확인한다. 품사태그 설명 nnp.csv 파일을 메모장으로 열고 수정한다. 사용자 사전 수정 적용하기 위해 Window PowerShell을 관리자 권한으로 연다 mecab 폴더로 이동해야 하기 위해 아래와 같이 입력을 한다.
개요 R에서 Selenium을 설치하는 과정을 보여준다. 우선 자바가 설치되어 있는지 확인한다. 유투브에서 제목만 가져오는 Demo 코드를 작성한다. 자바를 모르시는 분 만약 자바 설치를 해본적이 없다면 아래 코드를 순차적으로 입력한다. install.packages("multilinguer") library(multilinguer) install_jdk() # Rtools 설치 필요 # https://cran.r-project.org/bin/windows/Rtools write('PATH="${RTOOLS40_HOME}\\usr\\bin;${PATH}"', file = "~/.Renviron", append = TRUE) Sys.which("make") install.packages(c("stringr", "hash", "tau", "Sejong", "RSQLite", "devtools"), type = "binary") install.packages("remotes") remotes::install_github("haven-jeon/KoNLP", upgrade = "never", INSTALL_opts = c("--no-multiarch")) library(KoNLP) useNIADic() 마지막 코드에서 콘솔창이 보인다면 정상적으로 설치가 완료가 된 것이다.
Step 01 - 빅카인즈 접속 후, 데이터 내려받기 싸이트 : https://www.bigkinds.or.kr/v2/news/index.do 해당 싸이트에서 키워드를 입력 한다. 이 때, 기간, 신문사 등을 선택할 수 있다. 필자는 키워드는 ‘사회적 경제’ 신문사는 국민일보, 조선일보, 중앙일보를 선택한다. 하단으로 내려 적용하기 버튼을 클릭한다. Step 03 - 분석 결과 및 시각화 탭을 클릭한다. 데이터 다운로드 탭 하단에 엑셀 다운로드 버튼을 클릭한다. 해당 파일에는 본문이 있지만, 보통 200자 내외로 짧게 요약이 되어 있다. Step 02 - 웹 크롤링 소스 코드 작성을 위한 사전 준비 먼저 기 다운로드 된 파일을 불러온다.
개요 M1 Mac에서 텐서플로를 설치 한다. 필자의 현재 M1 환경은 아래와 같다. sessionInfo() R version 4.1.2 (2021-11-01) Platform: aarch64-apple-darwin20 (64-bit) Running under: macOS Big Sur 11.6 Matrix products: default LAPACK: /Library/Frameworks/R.framework/Versions/4.1-arm64/Resources/lib/libRlapack.dylib locale: [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8 attached base packages: [1] stats graphics grDevices utils datasets methods base other attached packages: [1] ggplot2_3.3.5 dplyr_1.0.7 tfdatasets_2.7.0 keras_2.7.0 [5] reticulate_1.22 tensorflow_2.7.0 loaded via a namespace (and not attached): [1] Rcpp_1.0.7 compiler_4.1.2 pillar_1.6.4 prettyunits_1.1.1 [5] base64enc_0.1-3 tools_4.
개요 Mecab-ko 형태소 분석기 사용 위해서는 Rcppmecab 패키지를 설치해야 함. RcppMeCab 패키지 설치 앞서서 설치할 파일이 있음. URL: https://github.com/junhewk/RcppMeCab/blob/master/README_kr.md 해당 깃허브에서 설치해야 할 파일을 다운로드 받은 후, “C:\mecab” 경로에 설치한다. 설치 파일 MeCab 프로그램: mecab-ko-0.9.2-msvc-3 MeCab 사전: mecab-ko-dic-2.1.1-20180720-msvc-2 위 파일을 다운로드 받은 후, “C:\mecab"에서 압축을 해제한다.
RcppMecab 패키지 불러오기. 이제 패키지를 불러오도록 한다. 해당 패키지는 Github 버전으로 설치해야 하기 때문에 아래와 같이 설치를 한다. library(remotes) install_github("junhewk/RcppMeCab") Downloading GitHub repo junhewk/RcppMeCab@HEAD Installing 3 packages: BH, RcppParallel, Rcpp .
공지 본 포스트는 재직자 교육을 위해 만든 강의안의 일부입니다. Introduction 대회 개요 Many people struggle to get loans due to insufficient or non-existent credit histories. And, unfortunately, this population is often taken advantage of by untrustworthy lenders. Home Credit strives to broaden financial inclusion for the unbanked population by providing a positive and safe borrowing experience. In order to make sure this underserved population has a positive loan experience, Home Credit makes use of a variety of alternative data–including telco and transactional information–to predict their clients’ repayment abilities.
공지 본 자료는 아래 책에서 일부 발췌 하였고, 해당 코드를 재응용하기 위해 노력하였습니다. 전체 원 소스 코드를 보시려면 책을 구매하시기를 바랍니다. 실무 예제로 끝내는 R 데이터 분석: 데이터 분석가에게 꼭 필요한 5가지 실무 예제로 분석 프로세스 이해하기 구입처: http://www.yes24.com/Product/Goods/103449758?OzSrank=1 개요 Youtube API에 등록 후, 댓글 수집 및 감성을 분석하는 과정을 담았습니다. 구글 API 프로젝트 생성하기 API 사용을 위해서는 구글 개발자 콘솔에 접속한다.
URL: https://console.developers.google.com/ 아래와 같이 새로운 프로젝트 만들기를 클릭 한다.
개요 새로운 ML 라이브러리인 tidymodels를 활용하여 분류 모델을 개발해본다. 데이터 데이터는 Loan Prediction Practice Problem에서 가져왔다.
URL: https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/#ProblemStatement 회원가입 후, 대회 참여를 하면 3개의 파일을 다운로드 받을 수 있다.
Train file, Test file, Submission File Data Dictionary Train 파일의 데이터 명세서는 다음과 같다. Test 파일의 데이터 명세서는 다음과 같다. Submission 파일의 데이터 명세서는 다음과 같다. 대회목적 대출 승인 여부를 결정하는 모델을 만드는 것이 대회의 주 목적이며. 평가지표는 분류모형의 Accurarcy로 결정한다. 패키지 및 데이터 불러오기 먼저 필수 패키지를 불러온다.
1줄 요약 R을 활용하여 트위터 데이터를 수집하는 방법 및 절차에 대해 배우도록 한다. 트위터 API 인증 https://apps.twitter.com에 접속한다.
회원가입을 진행한다. create an app 버튼을 클릭한다. 필자는 Hobbysit-Exploring the API를 선택했다. 그 후에 개인 정보 등을 입력해야 한다. 휴대폰, 이메일 인증 등 인증 메일이 오기전까지는 조금 시일이 걸린다.
rtweet 패키지 별도의 인증 절차 없이 사용 가능한 패키지
https://github.com/ropensci/rtweet 우선 설치 후, 사용해보도록 한다.
본 코드는 Github 예제로 있는 코드를 가져온 것임 # install.