Rs - Data Science

1줄 요약 R을 활용하여 트위터 데이터를 수집하는 방법 및 절차에 대해 배우도록 한다. 트위터 API 인증 https://apps.twitter.com에 접속한다. 회원가입을 진행한다. create an app 버튼을 클릭한다. 필자는 Hobbysit-Exploring the API를 선택했다. 그 후에 개인 정보 등을 입력해야 한다. 휴대폰, 이메일 인증 등 인증 메일이 오기전까지는 조금 시일이 걸린다. rtweet 패키지 별도의 인증 절차 없이 사용 가능한 패키지 https://github.com/ropensci/rtweet 우선 설치 후, 사용해보도록 한다. 본 코드는 Github 예제로 있는 코드를 가져온 것임 # install.

공지 대용량 데이터 전처리시에 필요한 패키지를 소개한다. url: https://www.youtube.com/watch?v=EOjObl_GSi4 주석은 가급적 원어를 남겨 놓으니 잘 번역하기를 바란다. 설치 설치 방법은 기존과 마찬가지로 간단하게 작성할 수 있다. install.packages("disk.frame") suppressPackageStartupMessages(library(disk.frame)) library(nycflights13) 패키지 주요 아이디어 메모리보다 많은 데이터를 각각의 chunks로 분해하여 하나의 폴더 안에 저장한다. (HDD 디스크 사용) 자세한 셜명은 Giuhub를 참고 (https://github.com/xiaodaigh/disk.frame) Setup 실습 환경을 구성한다. setup_disk.frame() ## The number of workers available for disk.frame is 1 # this allows large datasets to be transferred between sessions options(future.

개요 본 수업을 듣는 수강생들을 위해 간단한 튜토리얼을 만들었다. 대회는 다음과 같다. 싸이트: 한국데이터거래소 /img/r/competition/blog_kdx_guideline_files/img 1단계 패키지 불러오기 데이터 가공 및 시각화 위주의 패키지를 불러온다. library(tidyverse) # 데이터 가공 및 시각화 library(readxl) # 엑셀파일 불러오기 패키지 2단계 데이터 불러오기 데이터가 많아서 순차적으로 진행하도록 한다. 각 데이터에 대한 설명은활용데이터설명(PDF)을 참조한다. 먼저 제 개발환경은 아래와 같다. Note: 윈도우와 Mac은 다를 수 있음을 명심하자. sessionInfo() ## R version 4.0.2 (2020-06-22) ## Platform: x86_64-apple-darwin17.0 (64-bit) ## Running under: macOS Catalina 10.

I. 개요 R을 처음 접하는 사람들을 위한 입문 포스트. 기존에 R을 하셨던 분들은 가볍게 보도록 한다. 프로그램을 설치한다. 필수 R: https://www.r-project.org/ 옵션(1) RStudio: https://rstudio.com/ 옵션(2) PyCharm: https://www.jetbrains.com/ko-kr/pycharm/download/ R은 일종의 엔진이기 때문에 필수로 설치한다. 파이썬과 같이 쓰는 유저라면 PyCharm을 R만 사용한다면 RStudio를 사용한다. (1) 데이터 분석의 기본 흐름 데이터 수집, 저장, 가공, 시각화, 모델링, 보고서 (대시보드) 입문자, 서비스 기획자는 전체의 생태계를 보자. PDF - 강사 메뉴얼 참조 II. CRAN 생태계 이해하기 전세계의 수많은 사람들과 조직들이 데이터, 통계, 머신러닝 등 다양한 문제를 해결하기 위해 여러 함수를 만들어 공유하는 곳입니다.

개요 새로운 분야에 대한 자료 정리는 언제나 흥미롭다. 오늘은 해양과학을 분석해보는 시간을 갖는다. 사실 필자는 해양과학을 모른다. 교재 교재 Oceanographic Analysis with R는 구매할 수 있다. 패키지 설치 패키지 홈페이지를 참고한다. 패키지 저자는 CRAN에서 다운로드 받는 것 보다는 깃허브에서 받는 것을 추천한다. 패키지 업데이트가 1년에 몇번 되지 않는다고 조금은 솔직하게 말한다. # install.packages("oce", dependencies = TRUE) library(oce) ## Loading required package: gsw ## Loading required package: testthat Evolution of oce 홈페이지에서 Oce는 오픈 소스 시스템으로 소개하고 있기 때문에, 관련 학문에 종사하는 사람들이 참여 해주는 것이 해당 패키지 발전에 매우 중요한 부분이다.

개요 R 강의를 진행하면서 xgboost를 R로 구현하고 싶었다. kaggle에 있는 데이터를 불러와서 제출까지 가는 과정을 담았으니 입문자들에게 작은 도움이 되기를 바란다. XGBoost 개요 논문 제목 - XGBoost: A Scalable Tree Boosting System 논문 게재일: Wed, 9 Mar 2016 01:11:51 UTC (592 KB) 논문 저자: Tianqi Chen, Carlos Guestrin 논문 소개 Tree boosting is a highly effective and widely used machine learning method. In this paper, we describe a scalable end-to-end tree boosting system called XGBoost, which is used widely by data scientists to achieve state-of-the-art results on many machine learning challenges.

Intro PLS-SEM의 분석과정에서 척도(측정변수와 잠재변수)의 신뢰도와 타당도를 확보하는 것은 매우 중요하며, 신뢰도와 타당도가 확보되지 않으면 모델 추정 결과가 의미가 없기 때문임 즉, 구조모델의 추정을 실행하려면 사전에 반드시 측정모델에 대한 평가과정을 통해 신뢰도와 타당도 확보 필요 I. 주요 개념 (1) 신뢰도 잠재변수의 측정에 있어서 얼마나 일관성이 있는가의 정도 의미 검사도구의 일관성을 말하며, 일관성이란 잠재변수를 여러 번에 걸쳐 측정했을 때 매번 같은 결과를 도출할 수 있는 정도. 내적 일관성 신뢰(Internal Consistency Reliability)로 평가 (2) 타당도 타당도의 기본 정의는 실제 측정하고자 하는 잠재변수를 정확하게 측정하고 있는 정도 PLS-SEM에서는 집중타당도(Convergent Validity)와 판별타당도(Discriminant Validity)를 사용한다.

Intro 지난 시간에 설문조사 전처리에 대해 배웠다면 이번에는 경영/사회과학 논문에서 필수적으로 기재해야 하는 표본의 특성을 간단한 프로그램으로 요약하는 것을 코딩한다. (1) 주요 패키지 이번 포스트부터 gt 패키지를 사용하려고 한다. gt: ggplot2와 같이 Table를 문법으로 컨트롤 할 수 있도록 구현된 패키지이다. kableExtra: HTML로 출력할 수 있도록 도와주는 패키지이다. library(readr) library(dplyr) library(gt) library(gtsummary) I. 데이터 가져오기 우선 데이터를 불러온다. data <- read_csv('data/thesis_mater.csv') %>% distinct() %>% # 중복데이터 제거 rename(Position = founder_employee, # 출력을 위한 변수명 정리 Age = age_of_respondent, Education = Education_Level) glimpse(data %>% select(Firm_Age:Business_Area)) 전체 34개의 변수 중에서, 문자열 관련 데이터만 추출하였다.

공지 본 포스트는 데이터 시각화 교과서 내용의 일부를 요약하였다. 본 포스트를 읽고 가급적 전체 내용 숙지를 위해 구매하는 것을 권유한다. 개요 수치형 자료를 Y축으로 놓는 그래프는 언제나 힘들었다. log Scale을 통해 값의 크기를 줄이기는 하지만, Y축을 어떻게 표현하는 것이 좋을지에 대한 고민은 늘 있어왔다. 시각화 이론 중심의 포스팅이기에 코드 리뷰 및 해석은 생략한다. 문제점 log Scale을 적용했을 때와 그렇지 않을 때의 그래프를 비교해본다. (1) 패키지 불러오기 각각의 패키지를 불러온다. 이 때, 데이터는 dviz.

Intro 설문조사가 끝났으면 이제 정리를 해야 한다. 일련의 과정은 보통 코딩이라 부른다. (1) 주요 패키지 이번 포스트부터 gt 패키지를 사용하려고 한다. gt: ggplot2와 같이 Table를 문법으로 컨트롤 할 수 있도록 구현된 패키지이다. kableExtra: HTML로 출력할 수 있도록 도와주는 패키지이다. 문제점 SmartPLS 프로그램을 쓴다 하더라도 기본적으로 모든 데이터의 entry는 수치형으로 일단 바뀌어 있어야 한다. 우선 데이터를 불러와서 확인해보자. library(tidyverse) library(gt) library(kableExtra) # 데이터 불러오기 data <- read_csv("data/thesis_mater.csv") data %>% head() %>% kable() %>% kable_styling("striped") %>% scroll_box(width = "100%") EI_1 EI_2 EI_3 EP_1 EP_2 EP_3 ER_1 ER_2 ER_3 SS_1 SS_2 SS_3 SC_1 SC_2 SC_3 SR_1 SR_2 SR_3 F1 F2 F3 NF1 NF2 NF3 Firm_Age Firm_Size WE1 WE2 WE3 gender founder_employee age_of_respondent Education_Level Business_Area 2 3 4 3 3 4 3 2 4 1 1 3 3 3 3 2 2 1 2 2 3 3 1 3 5 years above Above 15 members No, I don't have experience Yes Yes Female Employee 30-39 Undergraduate School Others 5 5 2 3 5 3 4 4 4 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 Less than 2 years Less than 5 members No, I don't have experience No Yes Male Employee Younger than 30 Undergraduate School Media and Entertainment 1 2 2 1 1 2 1 2 1 2 2 1 1 2 2 1 2 1 2 1 1 1 1 1 5 years above Less than 5 members As founder or employee, I have startup experiences more than 3 times No Yes Female Founder of Company Younger than 30 Undergraduate School Others 3 3 2 1 2 1 2 1 3 2 1 3 1 1 1 2 3 3 3 3 2 3 2 2 Less than 2 years Less than 5 members No, I don't have experience Yes Yes Male Employee Younger than 30 Undergraduate School Others 5 3 5 2 5 4 4 4 4 4 5 4 5 5 5 5 5 5 4 5 4 4 5 5 3-4 years Less than 5 members As founder or employee, I have startup experiences more than 3 times No Yes Male Founder of Company 30-39 Undergraduate School Others 1 3 3 1 3 3 2 3 1 4 1 2 3 3 1 2 2 1 1 2 3 1 3 1 5 years above 5-9 members As founder or employee, I have startup experience, one time No No Female Employee Younger than 30 Undergraduate School Others 위 데이터에서 보면 알 수 있듯이, WE1 ~ Business_Area 까지의 데이터는 모두 문자로 되어 있다.

Rs

트위터 데이터 수집 with R

disk.frame 패키지 소개

KDX Competition Guideline

(NCS) R 기초문법

OCE 패키지 소개

xgboost and kaggle with R

ch 13 - Reliability

ch 12 - Demographic of Respondent in R

ch05 - Log Scale Visualisation

ch 11 - Data Import & Label Encoding in R