R

강의 홍보

취준생을 위한 강의를 제작하였습니다.
본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다.
- 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다.
[비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기

1줄 요약

R처럼 Sample 데이터를 쉽게 불러오자.

Sample Dataset

Sample Data를 가져오는 코드를 작성합니다.
이 때 PyDataset 라이브러리를 활용합니다.
- URL: https://github.com/iamaziz/PyDataset

!pip install pydataset

Collecting pydataset
[?25l  Downloading https://files.pythonhosted.org/packages/4f/15/548792a1bb9caf6a3affd61c64d306b08c63c8a5a49e2c2d931b67ec2108/pydataset-0.2.0.tar.gz (15.9MB)
[K     |████████████████████████████████| 15.9MB 285kB/s 
[?25hRequirement already satisfied: pandas in /usr/local/lib/python3.7/dist-packages (from pydataset) (1.1.5)
Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.7/dist-packages (from pandas->pydataset) (2.8.1)
Requirement already satisfied: numpy>=1.15.4 in /usr/local/lib/python3.7/dist-packages (from pandas->pydataset) (1.19.5)
Requirement already satisfied: pytz>=2017.2 in /usr/local/lib/python3.7/dist-packages (from pandas->pydataset) (2018.9)
Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.7/dist-packages (from python-dateutil>=2.7.3->pandas->pydataset) (1.15.0)
Building wheels for collected packages: pydataset
  Building wheel for pydataset (setup.py) ... [?25l[?25hdone
  Created wheel for pydataset: filename=pydataset-0.2.0-cp37-none-any.whl size=15939431 sha256=ebe470895a3467fe13c7654021e9108227a6dec8ce6da4f9b4e704520bcd6203
  Stored in directory: /root/.cache/pip/wheels/fe/3f/dc/5d02ccc767317191b12d042dd920fcf3432fab74bc7978598b
Successfully built pydataset
Installing collected packages: pydataset
Successfully installed pydataset-0.2.0

from pydataset import data
print(data())

        dataset_id                                             title
0    AirPassengers       Monthly Airline Passenger Numbers 1949-1960
1          BJsales                 Sales Data with Leading Indicator
2              BOD                         Biochemical Oxygen Demand
3     Formaldehyde                     Determination of Formaldehyde
4     HairEyeColor         Hair and Eye Color of Statistics Students
..             ...                                               ...
752        VerbAgg                  Verbal Aggression item responses
753           cake                 Breakage Angle of Chocolate Cakes
754           cbpp                 Contagious bovine pleuropneumonia
755    grouseticks  Data on red grouse ticks from Elston et al. 2001
756     sleepstudy       Reaction times in a sleep deprivation study

데이터를 불러오는 코드를 작성한다.

cake = data("cake")
print(cake)

data("cake", show_doc=True)

     replicate recipe  temperature  angle  temp
1            1      A          175     42   175
2            1      A          185     46   185
3            1      A          195     47   195
4            1      A          205     39   205
5            1      A          215     53   215
..         ...    ...          ...    ...   ...
266         15      C          185     28   185
267         15      C          195     25   195
268         15      C          205     25   205
269         15      C          215     31   215
270         15      C          225     25   225
cake

PyDataset Documentation (adopted from R Documentation. The displayed examples are in R)

## Breakage Angle of Chocolate Cakes

### Description

Data on the breakage angle of chocolate cakes made with three different
recipes and baked at six different temperatures. This is a split-plot design
with the recipes being whole-units and the different temperatures being
applied to sub-units (within replicates). The experimental notes suggest that
the replicate numbering represents temporal ordering.

### Format

A data frame with 270 observations on the following 5 variables.

`replicate`

a factor with levels `1` to `15`

`recipe`

a factor with levels `A`, `B` and `C`

`temperature`

an ordered factor with levels `175` < `185` < `195` < `205` < `215` < `225`

`angle`

a numeric vector giving the angle at which the cake broke.

`temp`

numeric value of the baking temperature (degrees F).

### Details

The `replicate` factor is nested within the `recipe` factor, and `temperature`
is nested within `replicate`.

### Source

Original data were presented in Cook (1938), and reported in Cochran and Cox
(1957, p. 300). Also cited in Lee, Nelder and Pawitan (2006).

### References

Cook, F. E. (1938) _Chocolate cake, I. Optimum baking temperature_. Master's
Thesis, Iowa State College.

Cochran, W. G., and Cox, G. M. (1957) _Experimental designs_, 2nd Ed. New
York, John Wiley \& Sons.

Lee, Y., Nelder, J. A., and Pawitan, Y. (2006) _Generalized linear models with
random effects. Unified analysis via H-likelihood_. Boca Raton, Chapman and
Hall/CRC.

### Examples

    str(cake)
    ## 'temp' is continuous, 'temperature' an ordered factor with 6 levels
    (fm1 <- lmer(angle ~ recipe * temperature + (1|recipe:replicate), cake, REML= FALSE))
    (fm2 <- lmer(angle ~ recipe + temperature + (1|recipe:replicate), cake, REML= FALSE))
    (fm3 <- lmer(angle ~ recipe + temp        + (1|recipe:replicate), cake, REML= FALSE))
    ## and now "choose" :
    anova(fm3, fm2, fm1)

1줄 요약

터미널에서 R 실행이 안된다면 PATH를 설정한다.

문제 상황

MacOS 터미널에서 R을 실행하고 싶은데, 가끔 아래와 같은 에러 메시지가 나올때가 있다.

$ R 
bash: R: command not found

문제 해결

이는 환경설정 문제이다. 즉, 이러한 경우에는 여러 솔루션이 있다.
- Ref. Running R from Mac OSX terminal
그 중에서 필자는 Fourth Solution: 선택하였다.

$ export PATH="/Library/Frameworks/R.framework/Resources:$PATH"

그 후에 terminal에서 which R을 실행해본다. 아래와 같이 정상적으로 출력이 된다면, 환경설정은 잘 된 것이다.

$ which R
/Library/Frameworks/R.framework/Resources/R

Happy To Code

강의 홍보

취준생을 위한 강의를 제작하였습니다.
본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다.
- 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다.
[비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기

1줄 요약

오픈 데이터로 활용하여 시계열 데이터를 확보해보자.

동기 부여

Pandas 공식 홈페이지가 살짝 바뀐 듯 하였다.
시계열 데이터를 다루는 페이지를 확인하던 중 open air quality data API가 있는 것을 확인하였다.
- Github: https://github.com/dhhagan/py-openaq

라이브러리 설치

라이브러리 설치는 비교적 간단하다.

$ pip install py-openaq
Collecting py-openaq
  Downloading py-openaq-1.1.0.tar.gz (7.9 kB)
Building wheels for collected packages: py-openaq
  Building wheel for py-openaq (setup.py) ... done
  Created wheel for py-openaq: filename=py_openaq-1.1.0-py3-none-any.whl size=9036 sha256=1d5011bd3ef180c93d275081f6f5ad20d569c9f7ce2982eabaaeee7307070b75
  Stored in directory: /Users/evan/Library/Caches/pip/wheels/01/1d/be/6b6a0ee792bbc9138aeb645707cdad8da741bb2d789beb04d9
Successfully built py-openaq
Installing collected packages: py-openaq
Successfully installed py-openaq-1.1.0

데이터 불러오기

데이터를 불러오면 다음과 같다.

import openaq
api = openaq.OpenAQ()

location = "FR04014"
date_from = "2019-05-07T01:00:00" 
date_to = "2019-06-21T00:00:00" 
parameter = "no2"

FR04014_results = api.measurements(location=location, 
                                   parameter=parameter, 
                                   date_from=date_from, 
                                   date_to=date_to, 
                                   limit=10000,
                                   df=True, 
                                   index='local')
print(FR04014_results.shape)
FR04014_results.head()

(1002, 9)

	location	parameter	value	unit	country	city	date.utc	coordinates.latitude	coordinates.longitude
date.local
2019-06-21 02:00:00	FR04014	no2	20.0	b'\xc2\xb5g/m\xc2\xb3'	FR	Paris	2019-06-21 00:00:00+00:00	48.837243	2.393902
2019-06-21 01:00:00	FR04014	no2	21.8	b'\xc2\xb5g/m\xc2\xb3'	FR	Paris	2019-06-20 23:00:00+00:00	48.837243	2.393902
2019-06-21 00:00:00	FR04014	no2	26.5	b'\xc2\xb5g/m\xc2\xb3'	FR	Paris	2019-06-20 22:00:00+00:00	48.837243	2.393902
2019-06-20 23:00:00	FR04014	no2	24.9	b'\xc2\xb5g/m\xc2\xb3'	FR	Paris	2019-06-20 21:00:00+00:00	48.837243	2.393902
2019-06-20 22:00:00	FR04014	no2	21.4	b'\xc2\xb5g/m\xc2\xb3'	FR	Paris	2019-06-20 20:00:00+00:00	48.837243	2.393902

정상적으로 데이터가 불러오진 것을 확인할 수 있다.
다음은 3개의 데이터셋을 만들어서 합친 후, 시계열 데이터 핸들링을 연습해보독 한다.

Reference

HP-Nunes.(2020). An Introduction to Data Collection: REST APIs with Python & Pizzas, Medium, Retrieved from https://medium.com/@geocuriosity/an-introduction-to-data-collection-rest-apis-with-python-pizzas-7b682cef676c

한줄 요약

KoNLP는 여기에서 무조건 해결한다.

KoNLP 이슈

R에서 텍스트 마이닝을 진행할 때에는 반드시 한번쯤은 패키지 설치로 인해 어려움을 겪는다. - R 입문자 분들이 초반에 호기롭게 시작하였다가 대부분 포기하려고 하는 지점이기도 하다.
사실, 조금 더 간편한 방법이 나오기를 기대한다.

1단계 Java 설치 및 환경 변수 설정

주의: 윈도우 10 64비트
여러 좋은 자료들이 많아서 같이 참고하기를 바란다.

1줄 요약

R을 활용하여 트위터 데이터를 수집하는 방법 및 절차에 대해 배우도록 한다.

트위터 API 인증

https://apps.twitter.com에 접속한다.
- 회원가입을 진행한다.
create an app 버튼을 클릭한다.
필자는 Hobbysit-Exploring the API를 선택했다.
- 그 후에 개인 정보 등을 입력해야 한다.
- 휴대폰, 이메일 인증 등
인증 메일이 오기전까지는 조금 시일이 걸린다.

rtweet 패키지

별도의 인증 절차 없이 사용 가능한 패키지
- https://github.com/ropensci/rtweet
우선 설치 후, 사용해보도록 한다.
- 본 코드는 Github 예제로 있는 코드를 가져온 것임

# install.packages("rtweet")
library(rtweet)
library(dplyr)
library(ggplot2)

Search Tweets

search_tweets() 함수를 활용하면 매우 쉽게 데이터를 가져올 수 있다.

rstats <- search_tweets("#테슬라", n = 1000, include_rts = FALSE) %>% 
  select(name, location, description)

앱 인증 절차만 진행이 되면 데이터를 가져올 수 있다.

glimpse(rstats)

## Rows: 132
## Columns: 3
## $ name        <chr> "얼리어답터", "얼리어답터", "허프포스트코리아", "뉴스핌", "뉴스핌", "disclosure", ~
## $ location    <chr> "", "", "SEOUL", "Korea", "Korea", "", "", "", "", "", "",~
## $ description <chr> "2001년부터 전세계의 테크 트랜드를 한국에 소개했던 얼리어답터가 완전히 새롭게 다시 시작합니다. 더 ~

텍스트 데이터를 수집할 수 있었다.

그 외 패키지와의 비교

Github에는 rtweet 패키지가 어떤 Task를 수행하는 비교하는 표가 있다.

공지

대용량 데이터 전처리시에 필요한 패키지를 소개한다.
- url: https://www.youtube.com/watch?v=EOjObl_GSi4

주석은 가급적 원어를 남겨 놓으니 잘 번역하기를 바란다.

설치

설치 방법은 기존과 마찬가지로 간단하게 작성할 수 있다.

install.packages("disk.frame")

suppressPackageStartupMessages(library(disk.frame))
library(nycflights13)

패키지 주요 아이디어

메모리보다 많은 데이터를 각각의 chunks로 분해하여 하나의 폴더 안에 저장한다. (HDD 디스크 사용)
자세한 셜명은 Giuhub를 참고 (https://github.com/xiaodaigh/disk.frame)

Setup

실습 환경을 구성한다.

setup_disk.frame()

## The number of workers available for disk.frame is 1

# this allows large datasets to be transferred between sessions
options(future.globals.maxSize = Inf)

빠른 시작

nycflights13 데이터를 활용한다.
- 이 예제는 dplyr 배울 때, 자주 등장하는 예제
- 참고: https://r4ds.had.co.nz/transform.html

disk.frame으로 변환

데이터 객체를 disk.frame으로 변환한다.

# convert the flights data.frame to a disk.frame
# optionally, you may specify an outdir, otherwise, the 
flights.df <- as.disk.frame(nycflights13::flights, overwrite = TRUE)
class(flights.df)

## [1] "disk.frame"        "disk.frame.folder"

flights.df

## path: "/var/folders/zq/ch7gky6n3rzgjf1pd0w2l35w0000gn/T//Rtmp3ymGwx/file61302e8c8834.df"
## nchunks: 1
## nrow (at source): 336776
## ncol (at source): 19
## nrow (post operations): ???
## ncol (post operations): ???

객체가 disk.frame으로 변환된 것을 확인할 수 있다.

개요

본 수업을 듣는 수강생들을 위해 간단한 튜토리얼을 만들었다.
대회는 다음과 같다.
- 싸이트: 한국데이터거래소

/img/programming/2020/10/blog_kdx_guideline/img

1단계 패키지 불러오기

데이터 가공 및 시각화 위주의 패키지를 불러온다.

library(tidyverse) # 데이터 가공 및 시각화
library(readxl) # 엑셀파일 불러오기 패키지

2단계 데이터 불러오기

데이터가 많아서 순차적으로 진행하도록 한다.
각 데이터에 대한 설명은활용데이터설명(PDF)을 참조한다.

먼저 제 개발환경은 아래와 같다.
- Note: 윈도우와 Mac은 다를 수 있음을 명심하자.

sessionInfo()

## R version 4.0.2 (2020-06-22)
## Platform: x86_64-apple-darwin17.0 (64-bit)
## Running under: macOS Catalina 10.15.6
## 
## Matrix products: default
## BLAS:   /Library/Frameworks/R.framework/Versions/4.0/Resources/lib/libRblas.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/4.0/Resources/lib/libRlapack.dylib
## 
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
##  [1] readxl_1.3.1    forcats_0.5.0   stringr_1.4.0   dplyr_1.0.0    
##  [5] purrr_0.3.4     readr_1.3.1     tidyr_1.1.0     tibble_3.0.3   
##  [9] ggplot2_3.3.2   tidyverse_1.3.0
## 
## loaded via a namespace (and not attached):
##  [1] Rcpp_1.0.5       cellranger_1.1.0 pillar_1.4.6     compiler_4.0.2  
##  [5] dbplyr_1.4.4     tools_4.0.2      digest_0.6.25    lubridate_1.7.9 
##  [9] jsonlite_1.7.0   evaluate_0.14    lifecycle_0.2.0  gtable_0.3.0    
## [13] pkgconfig_2.0.3  rlang_0.4.7      reprex_0.3.0     cli_2.0.2       
## [17] rstudioapi_0.11  DBI_1.1.0        yaml_2.2.1       haven_2.3.1     
## [21] xfun_0.16        withr_2.3.0      xml2_1.3.2       httr_1.4.2      
## [25] knitr_1.29       fs_1.5.0         hms_0.5.3        generics_0.0.2  
## [29] vctrs_0.3.2      grid_4.0.2       tidyselect_1.1.0 glue_1.4.1      
## [33] R6_2.4.1         fansi_0.4.1      rmarkdown_2.3    modelr_0.1.8    
## [37] blob_1.2.1       magrittr_1.5     backports_1.1.8  scales_1.1.1    
## [41] ellipsis_0.3.1   htmltools_0.5.0  rvest_0.3.6      assertthat_0.2.1
## [45] colorspace_1.4-1 stringi_1.4.6    munsell_0.5.0    broom_0.7.0     
## [49] crayon_1.3.4

(1) 삼성카드 데이터

우선 삼성카드 데이터를 불러와서 확인한다.
한글 파일은 인코딩이 늘 항상 문제다.
- 파일을 불러오기 전 항상 파일 인코딩을 확인하도록 한다.

readr::guess_encoding("data/Samsungcard.csv", n_max = 100)

## # A tibble: 2 x 2
##   encoding confidence
##   <chr>         <dbl>
## 1 EUC-KR         1   
## 2 GB18030        0.62

Encoding 확인 결과 EUC-KR로 확인하였다.

samsung_card <- read_xlsx("data/Samsungcard.xlsx")
samsung_card2 <- read.csv("data/Samsungcard.csv", fileEncoding = "EUC-KR")

위 두 파일이 동일한 것을 확인해본다

head(samsung_card)

## # A tibble: 6 x 5
##   소비일자 소비업종  성별  연령대 소비건수
##      <dbl> <chr>     <chr> <chr>     <dbl>
## 1 20190101 가전/가구 남성  20대       5529
## 2 20190101 가전/가구 남성  30대      17536
## 3 20190101 가전/가구 남성  40대      22838
## 4 20190101 가전/가구 남성  50대      15801
## 5 20190101 가전/가구 남성  60대       6772
## 6 20190101 가전/가구 여성  20대       5937

head(samsung_card2)

##   소비일자  소비업종 성별 연령대 소비건수
## 1 20190101 가전/가구 남성   20대     5529
## 2 20190101 가전/가구 남성   30대    17536
## 3 20190101 가전/가구 남성   40대    22838
## 4 20190101 가전/가구 남성   50대    15801
## 5 20190101 가전/가구 남성   60대     6772
## 6 20190101 가전/가구 여성   20대     5937

두 파일이 동일한 것을 확인하였다면 이제 samsung_card2는 삭제를 한다.
- RAM을 아껴 쓰자.

rm(samsung_card2) # 객체 지우는 함수
ls() # 현재 저장된 객체 확인하는 함수

## [1] "samsung_card"

(2) 신한카드 데이터

이번에는 ShinhanCard.xslx 데이터를 불러온다.

shinhancard <- read_xlsx("data/Shinhancard.xlsx")
head(shinhancard)

## # A tibble: 6 x 8
##   일별    성별  연령대별 업종               `카드이용건수(천건)`… ...6  ...7   ...8
##   <chr>   <chr> <chr>    <chr>                           <dbl> <lgl> <lgl> <dbl>
## 1 201901… F     20대     M001_한식                       299.  NA    NA       10
## 2 201901… F     20대     M002_일식/중식/양식…               88.3 NA    NA       NA
## 3 201901… F     20대     M003_제과/커피/패스트푸드…              291.  NA    NA       NA
## 4 201901… F     20대     M004_기타요식                   446.  NA    NA       NA
## 5 201901… F     20대     M005_유흥                        24.2 NA    NA       NA
## 6 201901… F     20대     M006_백화점                      35.3 NA    NA       NA

위 데이터를 불러오니 불필요한 6:8 변수가 불러온 것을 확인할 수 있다.
- 실제 엑셀 데이터를 열어도 빈값임을 확인할 수 있다.
- 따라서, 6:8 변수는 삭제한다.

shinhancard <- shinhancard %>% 
  select(-c(6:8))

head(shinhancard)

## # A tibble: 6 x 5
##   일별     성별  연령대별 업종                      `카드이용건수(천건)`
##   <chr>    <chr> <chr>    <chr>                                    <dbl>
## 1 20190101 F     20대     M001_한식                                299. 
## 2 20190101 F     20대     M002_일식/중식/양식                       88.3
## 3 20190101 F     20대     M003_제과/커피/패스트푸드                291. 
## 4 20190101 F     20대     M004_기타요식                            446. 
## 5 20190101 F     20대     M005_유흥                                 24.2
## 6 20190101 F     20대     M006_백화점                               35.3

(3) 지인플러스

지인플러스는 아파트시세(GIN00009A)와 아파트 거래량(GIN00008B)을 담은 코드이다.

gin_8a <- read_csv("data/GIN00008A.csv")
gin_9a <- read_csv("data/GIN00009A.csv")

위 두개의 데이터를 확인해본다.

glimpse(gin_8a)

## Rows: 937,904
## Columns: 9
## $ ym             <dbl> 200601, 200602, 200603, 200604, 200605, 200606, 200607…
## $ area_lvl_scor  <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ lgdng_cd       <chr> "0000000000", "0000000000", "0000000000", "0000000000"…
## $ trd_cont       <dbl> 23357, 38617, 52241, 44253, 41916, 30257, 28613, 37362…
## $ avg_trd_cont   <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ trd_deal_rat   <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
## $ mtrnt_cont     <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ avg_mtrnt_cont <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ mtrnt_deal_rat <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…

glimpse(gin_9a)

## Rows: 785,805
## Columns: 4
## $ lgdng_cd <dbl> 1.1e+09, 1.1e+09, 1.1e+09, 1.1e+09, 1.1e+09, 1.1e+09, 1.1e+0…
## $ std_date <date> 2006-01-21, 2006-02-21, 2006-03-21, 2006-04-21, 2006-05-21,…
## $ trd_prc  <dbl> 1289, 1271, 1291, 1307, 1321, 1335, 1357, 1381, 1411, 1444, …
## $ ldpb_prc <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …

(4) JSON 파일 불러오기

JSON 파일 불러올 때에는 jsonlite 패키지를 활용한다.

library(jsonlite)
GIN_10m <- fromJSON("data/center_GIN00010M.json")
glimpse(GIN_10m)

## Rows: 20,572
## Columns: 8
## $ AREA_LVL_SCOR <int> 1, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3…
## $ LGDNG_CD      <chr> "1100000000", "1111000000", "1111010100", "1111010200",…
## $ CTPV_NM       <chr> "서울특별시", "서울특별시", "서울특별시", "서울특별시", "서울특별시", "서울특별시", "…
## $ CTGG_NM       <chr> NA, "종로구", "종로구", "종로구", "종로구", "종로구", "종로구", "종로구", "종…
## $ EMD_NM        <chr> NA, NA, "청운동", "신교동", "궁정동", "효자동", "창성동", "통의동", "적선동"…
## $ LA            <dbl> 37.52934, 37.58586, 37.58920, 37.58449, 37.58468, 37.58…
## $ LNGT          <dbl> 126.9515, 126.9775, 126.9693, 126.9679, 126.9731, 126.9…
## $ PYN_CN        <chr> "{\"type\": \"Polygon\", \"coordinates\": [[[126.979658…

PYN_CN의 값이 조금 다른 것을 확인할 수 있다.
- 이 부분은 추후 전처리할 때 정리하는 것으로 확인한다.

(5) SSC_Data

이번에는 Mcorporation내 폴더 데이터를 올리도록 한다.
이번에 파일을 불러올 때는 readr::read_csv()를 활용하여 불러온다.

readr::guess_encoding("data/Mcorporation/KDX시각화경진대회_SSC_DATA.csv")

## # A tibble: 2 x 2
##   encoding confidence
##   <chr>         <dbl>
## 1 EUC-KR         1   
## 2 GB18030        0.76

ssc_data <- read_csv("data/Mcorporation/KDX시각화경진대회_SSC_DATA.csv", locale = locale("ko", encoding = "EUC-KR"))
glimpse(ssc_data)

## Rows: 76,580
## Columns: 5
## $ 소비일자 <dbl> 20190101, 20190101, 20190101, 20190101, 20190101, 20190101, 2019…
## $ 소비업종 <chr> "가전/가구", "가전/가구", "가전/가구", "가전/가구", "가전/가구", "가전/가구", "가전/가구", "…
## $ 성별     <chr> "남성", "남성", "남성", "남성", "남성", "여성", "여성", "여성", "여성", "여성", "남…
## $ 연령대   <chr> "20대", "30대", "40대", "50대", "60대", "20대", "30대", "40대", "50대", …
## $ 소비건수 <dbl> 5529, 17536, 22838, 15801, 6772, 5937, 12895, 16896, 14025, 5909…

(6) 다중 엑셀파일 불러오기 예제

상품 카데고리 데이터_KDX 시각화 폴더 내 엑셀 데이터를 확인해본다.

list.files(path = "data/Mcorporation/상품 카테고리 데이터_KDX 시각화 경진대회 Only/")

##  [1] "PC사무기기.xlsx"             "TV홈시어터.xlsx"            
##  [3] "가공식품.xlsx"               "가방지갑잡화.xlsx"          
##  [5] "건강관련용품.xlsx"           "건강식품.xlsx"              
##  [7] "계절가전.xlsx"               "골프용품.xlsx"              
##  [9] "공구류.xlsx"                 "구기.xlsx"                  
## [11] "국내외여행.xlsx"             "기타 스포츠.xlsx"           
## [13] "낚시.xlsx"                   "남성의류.xlsx"              
## [15] "노트북.xlsx"                 "농축수산물.xlsx"            
## [17] "도서음반DVD.xlsx"            "등산용품.xlsx"              
## [19] "메이크업.xlsx"               "문구사무용품.xlsx"          
## [21] "미용가전.xlsx"               "반려동물.xlsx"              
## [23] "생활가구.xlsx"               "생활가전.xlsx"              
## [25] "생활용품.xlsx"               "서비스티켓.xlsx"            
## [27] "성인용품.xlsx"               "세탁청소세면.xlsx"          
## [29] "수납가구.xlsx"               "수납용품.xlsx"              
## [31] "수영.xlsx"                   "스키보드.xlsx"              
## [33] "스킨케어.xlsx"               "스포츠의류.xlsx"            
## [35] "신발.xlsx"                   "악세서리시계주얼리.xlsx"    
## [37] "안전용품.xlsx"               "언더웨어.xlsx"              
## [39] "업소위생용품.xlsx"           "여성의류.xlsx"              
## [41] "완구키덜트게임.xlsx"         "욕실가전.xlsx"              
## [43] "욕실용품.xlsx"               "유아용품.xlsx"              
## [45] "유아패션.xlsx"               "음료.xlsx"                  
## [47] "음향가전.xlsx"               "인테리어용품.xlsx"          
## [49] "자동차용품.xlsx"             "자전거사이클보드인라인.xlsx"
## [51] "주방가전.xlsx"               "주방수납잡화.xlsx"          
## [53] "주방식기용기.xlsx"           "주방조리기구.xlsx"          
## [55] "출산임부용품.xlsx"           "취미악기.xlsx"              
## [57] "침실가구.xlsx"               "침실인테리어.xlsx"          
## [59] "카메라캠코더.xlsx"           "캠핑용품.xlsx"              
## [61] "테마의류.xlsx"               "헤어바디용품.xlsx"          
## [63] "헬스기구용품.xlsx"           "휴대폰악세서리.xlsx"

몇가지 파일을 열어본다.
엑셀 데이터의 변수 등이 동일한 것을 확인할 수 있다.
이제 위 데이터를 한꺼번에 불러와서 하나의 데이터셋으로 합친다.
검색키워드 Multiple Excel Files import in R

files <- list.files(path = "data/Mcorporation/상품 카테고리 데이터_KDX 시각화 경진대회 Only/", pattern = "*.xlsx", full.names = T)

products <- sapply(files, read_excel, simplify=FALSE) %>% 
  bind_rows(.id = "id") %>% 
  select(-id)

glimpse(products)

## Rows: 1,837,833
## Columns: 7
## $ 구매날짜   <dbl> 20190101, 20190101, 20190101, 20190101, 20190101, 20190101, 20…
## $ 카테고리명 <chr> "PC/사무기기", "PC/사무기기", "PC/사무기기", "PC/사무기기", "PC/사무기기", "PC/사무기기…
## $ 고객성별   <chr> "F", "F", "F", "F", "F", "F", "F", "F", "F", "F", "F", "F", "F…
## $ 고객나이   <dbl> 10, 10, 10, 10, 20, 20, 20, 20, 30, 30, 30, 30, 40, 40, 40, 40…
## $ OS유형     <chr> "IOS", "WINDOWS", "안드로이드", "없음", "IOS", "WINDOWS", "안드로이드", …
## $ 구매금액   <dbl> 352443, 84000, 80870, 3700, 27714776, 11414514, 21223319, 4832…
## $ 구매수     <dbl> 13, 1, 8, 1, 381, 60, 252, 41, 240, 75, 423, 19, 58, 110, 436…

3단계 데이터 시각화

먼저, 데이터 저장 용량을 고려하여 products 데이터셋을 제외하고 나머지는 모두 삭제한다.
데이터 시각화는 변수의 종류에 따른 시각화를 구현한 것이다.
시각화 참조자료는 다음에서 작성이 가능하다.
- Top 50 ggplot2 Visualizations - The Master List (With Full R Code)
아래 샘플은 필자가 공부하는 형태를 구현한 것이다. 참조하기를 바란다.

(1) 수치형 변수 ~ 수치형 변수

수치형 변수 ~ 수치형 변수 시각화의 대표적인 기법은 산점도(scatter) 또는 correlation이라 부른다.
- scatter 시각화를 구현한다.

# load package and data
library(ggplot2)
data(mpg, package="ggplot2")
# mpg <- read.csv("http://goo.gl/uEeRGu")

# Scatterplot
theme_set(theme_bw())  # pre-set the bw theme.
g <- ggplot(mpg, aes(cty, hwy))
g + geom_count(col="tomato3", show.legend=F) +
  labs(subtitle="mpg: city vs highway mileage", 
       y="hwy", 
       x="cty", 
       title="Counts Plot")

개요

본 Repo는 강림직업전문학교 수강생을 위해 예시로 작성한 Repo입니다.
본 Repo에서는 R을 활용한 데이터 과학 발표자료를 공유하기 위해 만들어졌습니다.

Git & Github

우선 Git을 설치합니다.
- 싸이트: https://git-scm.com/
- 설정은 모두 기본 값으로 해주시기 바랍니다.
Terimnal 창에서 git을 실행하여 정상적으로 설치되었는지 유무를 확인합니다.
그 다음은 Github에 회원가입을 합니다
- 저장소를 만드는 과정은 아래 싸이트를 참조바랍니다.
  - 싸이트: https://goddaehee.tistory.com/221
이제 RStudio에서 프로젝트를 클릭한 후 아래 화면에서 Version Control을 클릭합니다.

그 다음은 github에서 주소를 클릭합니다.

복사한 주소를 아래그림과 같이 주소를 붙여 넣습니다.

I. 개요

R을 처음 접하는 사람들을 위한 입문 포스트.
기존에 R을 하셨던 분들은 가볍게 보도록 한다.
프로그램을 설치한다.
- 필수 R: https://www.r-project.org/
- 옵션(1) RStudio: https://rstudio.com/
- 옵션(2) PyCharm: https://www.jetbrains.com/ko-kr/pycharm/download/
R은 일종의 엔진이기 때문에 필수로 설치한다.
- 파이썬과 같이 쓰는 유저라면 PyCharm을 R만 사용한다면 RStudio를 사용한다.

(1) 데이터 분석의 기본 흐름

데이터 수집, 저장, 가공, 시각화, 모델링, 보고서 (대시보드)
입문자, 서비스 기획자는 전체의 생태계를 보자.
PDF - 강사 메뉴얼 참조

II. CRAN 생태계 이해하기

전세계의 수많은 사람들과 조직들이 데이터, 통계, 머신러닝 등 다양한 문제를 해결하기 위해 여러 함수를 만들어 공유하는 곳입니다. (집단지성의 요체)
이중에는 아마존, 구글, MS 데이터 팀들이 내놓은 패키지도 존재함
오픈소스의 매우 특기할만 강점입니다.
새로운 패키지는 앞으로도 계속 만들어질 것이며, 스스로 학습할 수 있는 능력이 중요함
그렇다면 어떻게 공부할 것인가?
- 데이터 입문자: 다양한 책과 스터디에 참석 권유
- 서비스 기획자: R 컨퍼런스 참여 권유 (빅데이터 생태계의 발전 속도에 뒤쳐지지 말자!)
- 흐름은 똑같다! 다만, 무엇이 더 효율적이냐의 싸움

III. Dive in

(1) R 계산기

실행방법은 Windows: Ctrl + Enter / Mac: Command + Enter
사칙 연산을 수행해본다.

1 / 200 * 30

## [1] 0.15

다르게 해보자.

(59 + 73 + 2) / 3

## [1] 44.66667

이번에는 sin()함수를 사용해본다.

sin(pi / 2)

## [1] 1

(2) 변수 저장

변수 저장 시, R은 <- 사용하는 것을 권장합니다. (단축키: Alt + - (the minus sign))
특별한 이유는 없습니다. 타 언어와의 차이점이라고 이해해도 좋습니다.
객체이름 <- 값
예)

x <- 3 * 4

변수가 저장된 것을 확인할 수 있다.
저장된 변수를 호출한다.

## [1] 12

이번에는 print() 활용한다.

print(x)

## [1] 12

Tip: 필자는 가급적 print(x) 사용하는 것을 권한다.

개요

새로운 분야에 대한 자료 정리는 언제나 흥미롭다.
오늘은 해양과학을 분석해보는 시간을 갖는다.
사실 필자는 해양과학을 모른다.

교재

교재 Oceanographic Analysis with R는 구매할 수 있다.

패키지 설치

패키지 홈페이지를 참고한다.
패키지 저자는 CRAN에서 다운로드 받는 것 보다는 깃허브에서 받는 것을 추천한다.
- 패키지 업데이트가 1년에 몇번 되지 않는다고 조금은 솔직하게 말한다.

# install.packages("oce", dependencies = TRUE)
library(oce)

## Loading required package: gsw

## Loading required package: testthat

Evolution of oce

홈페이지에서 Oce는 오픈 소스 시스템으로 소개하고 있기 때문에, 관련 학문에 종사하는 사람들이 참여 해주는 것이 해당 패키지 발전에 매우 중요한 부분이다.

그래프

간단한 시각화를 구현해보도록 한다.

data(buoy, package = "ocedata")
theta <- (90 - buoy$direction) * pi / 180
u <- -buoy$wind*cos(theta)
v <- -buoy$wind*sin(theta)
s <- c(-1, 1) * max(buoy$wind, na.rm = TRUE)
plot(u, v, xlab = "u [m/s]", ylab = "v [m/s]", xlim=s, ylim=s, asp=1)
for (ring in seq(5, 30, 5))
  lines(ring*cos(seq(0, 2*pi, pi/32)), 
        ring*sin(seq(0, 2*pi, pi/32)), col="gray")