R

ch 03 - PLS-SEM 주요 개념

개요 PLS-SEM의 주요 개념 및 유사용어에 대해 살펴본다. 영어로 논문을 써야하기 때문에, 한국어와 영어를 같이 표기했다. 주요개념 잠재변수(Latent Variable): 직접 측정되지 않는 비관측변수(Unobserved Variable)로 측정변수를 통해 간접적으로 측정. 잠재변인, 구인, 구성개념(construct), 차원(dimension), 요인, 이론변수라고도 하며 경로도에는 circle로 표시됨 측정변수(Measured Variable): 직접 측정되는 관측변수(Observed Variable)로 잠재변수를 측정하기 위해 사용된 변수를 말함. (설문문항이 여기에 해당됨 지표변수(Indicator Variable), 명시변수(Manifest Variable), 측정항목(Items)로 표기되며 직사각형 또는 정사각형으로 표시함 외생변수(Exogenous Variable): 독립변수의 개념으로 다른 변수의 변화에 원인(Causes)이나 동기의 역할을 하는 변수로 경로도에서 화살표가 시작이 되는 모든 변수 말함 잠재변수 개념과 결합되면 외생잠재변수(Exogenous Latent Variable)가 됨 내생변수(Endogenous Variable): 종속변수의 개념으로 다른 변수에 의해 영향을 받는 변수이며 화살표를 받는 변수를 말함.

ch 02 - 구조방정식의 기본 개념과 고려사항

개요 기본적으로 다변량 분석 1세대 분석 방법론 군집분석, EFA, 분산분석, 다항회귀, 로지스틱 회귀분석 2세대 분석 방법론 PLS-SEM and CB-SEM 간단한 용어 정리 SEM - Structural Equation Modeling CB - Covariance Based SEM PLS - Partial Least Squares SEM (= PLS path Modeling) CB-SEM의 주 목적은 실증적으로 검증 가능한 다중 변수들 간의 체계적 관계 확인 PLS-SEM은 주로 탐험적 연구에서의 이론발전에 주로 사용되며, 종속변수의 분산을 설명하는데 주 초점을 맞준다. 본 논문에서는 필리핀에서의 스타트업 등에 관련된 논문 및 자료 수집에 한계가 있기 때문에 PLS-SEM 분석방법론을 채택하여 탐험연구에 준하여 분석을 진행한다.

ch 01 - PLS SEM Intro

개요 석사 학위 논문을 위해 작성하기 위해 만들었음 PLS SEM 모델링을 위한 R 패키지가 존재함 plspm: 2020년 5월 14일 R Cran에서 정식 패키지에서 내려감 위 패키지는 원서 약 230페이지 되는 교재도 있음 1차로 위 패키지를 고려했으나 5/14일 패키지가 내려간 이후 선택에서 제외시킴 또한, SMART PLS라는 상용프로그램도 존재함 특정 R semPLS와 위 상용 프로그램을 비교한 논문이 있었고, 다행히 두 프로그램의 결과값이 동일한 것으로 증명되었다. ref. Utilization of R Program for the Partial Least Square Model: Comparison of SmartPLS and R 아직 확정지은 것은 아니지만, 향후 추가적인 논문을 진행한다면 위 2개의 패키지와 SMART PLS 상용 소프트웨어를 비교하는 논문도 괜찮을 것이라 생각함 교재 이론적인 공부 및 Self-Study를 위해 크게 2가지 방향성을 잡고 공부하려고 함 이론서 1: PLS-SEM Book: A Primer on PLS-SEM (2nd Ed.

추천 시스템 패키지 소개 - recommenderlab

I. 개요 추천시스템을 처음 배우는 접하는 사람들을 위해 준비한 입문 Tutorial이다. 패키지 소개서에 있는 내용을 한글로 번역하였다. This R package provides an infrastructure to test and develop recommender algorithms. The package supports rating (e.g., 1-5 stars) and unary (0-1) data sets. Supported algorithms are: 이 R 패키지는 추천자 알고리즘을 테스트하고 개발할 수 있는 인프라를 제공한다. 이 패키지는 등급(예: 별 1-5개) 및 단항(0-1) 데이터 세트를 지원한다. 지원되는 알고리즘: User-based collborative filtering (UBCF) Item-based collborative filtering (IBCF) SVD with column-mean imputation (SVD) Funk SVD (SVDF) Alternating Least Squares (ALS) Matrix factorization with LIBMF (LIBMF) Association rule-based recommender (AR) Popular items (POPULAR) Randomly chosen items for comparison (RANDOM) Re-recommend liked items (RERECOMMEND) Hybrid recommendations (HybridRecommender) For evaluation, the framework supports given-n and all-but-x protocols with

Google Colab with R

I. 들어가며 빅데이터 시대에 맞춰서 다양한 툴이 나오는 가운데, Google Colab은 가히 혁명적이라 할 수 있다. 과거 높은 사양의 컴퓨터에서만 수행할 수 있었던 머신러닝과 딥러닝을 구글 코랩의 환경에서 무료로 배울 수 있는 기회를 구글이 제공하기 시작했다. 간단하게 아래 소스코드를 실행하여 CPU와 GPU의 연산속도를 비교 해보자. GPU를 사용한 TensorFlow II. Google Colab with R Google Colab은 매우 편리하다. 실제 강의를 시작하면서 파이썬 관련 모든 강의안은 Google Colab으로 제작중이다. 문제는 현재로써는 Google Colab만 지원한다는 점이다.

R - Select Helper Functions

I. 개요 dplyr 문법에서 select에 대해 다룬다. 보통 select는 열 추출 함수로 소개되고 있다. 그런데, select 함수에는 열 추출을 할 때 도와주는 helper functions가 있는데, 간단하게 소개하고자 한다. starts_with ends_with contains matches num_range one_of 작은 도움이 되었기를 바란다. II. 사전 준비 본격적인 실습에 앞서서, 패키지를 로드 한다. library(dplyr) library(nycflights13) flights 데이터셋의 변수들을 확인하자. glimpse(flights) ## Rows: 336,776 ## Columns: 19 ## $ year <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, … ## $ month <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, … ## $ day <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, … ## $ dep_time <int> 517, 533, 542, 544, 554, 554, 555, 557, 557, 558, 558,… ## $ sched_dep_time <int> 515, 529, 540, 545, 600, 558, 600, 600, 600, 600, 600,… ## $ dep_delay <dbl> 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2, -2, -… ## $ arr_time <int> 830, 850, 923, 1004, 812, 740, 913, 709, 838, 753, 849… ## $ sched_arr_time <int> 819, 830, 850, 1022, 837, 728, 854, 723, 846, 745, 851… ## $ arr_delay <dbl> 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -3, 7, -… ## $ carrier <chr> "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV", "B6", … ## $ flight <int> 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79, 301, … ## $ tailnum <chr> "N14228", "N24211", "N619AA", "N804JB", "N668DN", "N39… ## $ origin <chr> "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR", "LGA"… ## $ dest <chr> "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL", "IAD"… ## $ air_time <dbl> 227, 227, 160, 183, 116, 150, 158, 53, 140, 138, 149, … ## $ distance <dbl> 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 944, 733,… ## $ hour <dbl> 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 6, 6, … ## $ minute <dbl> 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, 0, 59, … ## $ time_hour <dttm> 2013-01-01 05:00:00, 2013-01-01 05:00:00, 2013-01-01 … 총 19개의 변수들로 구성이 되어 있는 것을 확인 할 수 있다.

ch04 - Modeling Visualisation

개요 A picture is worth a thousand words — English Language Adage The simple graph has brought more information to the data analyst’s mind than any other device. — John Tukey 한장의 그림이 수천단어보다 가치가 있다는 영어속담과, 명료한 시각화가 데이터분석가에게 다른 어떤 도구보다 더 많은 정보를 제공한다는 유명한 데이터 과학자의 조언. 핵심은 시각화이다. 본 장에서는 ggplot2 패키지를 활용한 시각화를 먼저 보여줄 것이다. 먼저 간단하게 ggplot2 패키지에 소개하자면 Grammar of Graphics1의 철학을 담아서 R 생태계에서 유명한 학자 중, Hadley Wickham에 의해 주도적으로 개발되었다.

Shiny App Deployment Using GCP

I. 개요 Google Data Studio는 놀랍도록 유연한 도구로서 마케팅 대행사 중 Google Analytics를 활용한 업체들은 대부분 항상 사용합니다. 때로는 유연성이 더 필요할 때 R ’s Shiny 패키지를 사용하여 데이터 시각화 / 대시 보드 앱을 만드는 것이 매우 쉽습니다. 이 옵션을 사용하면 모든 소스의 데이터를 예측 모델링과 함께 사용할 수 있는 장점이 있습니다. 이 블로그 게시물은 3 부분으로 나누어져 있습니다. 먼저 Google Cloud Virtual Machine (VM)을 설정하고 웹 액세스를 허용하도록 방화벽 규칙을 구성합니다.

Basic Objects - Dataframe

공지 본 Tutorial은 강사에게 강의를 듣는 과거-현재-미래 학생들을 위해 작성하였습니다. 이 글을 읽어주시는 분들에게 작은 도움이 되기를 바랍니다. I. DataFrame의 개요 본 포스트는 프로그래밍과 R을 처음 배우는 사람을 위해 작성하였습니다. 짧게 읽어두시기를 바랍니다. 공부하실 때는 복잡하게 생각하지는 마시기를 바랍니다. 영어의 기본단어 및 문법을 배우듯이 그냥 받아들이시기를 바랍니다. 데이터프레임은 서로 다른 성질의 벡터가 모여 있는 집합이라고 할 수 있다.1 (1) 데이터프레임 생성 이제 데이터프레임을 만들어보자. 어려운 것은 아니니 쉽게 따라 올 수 있을 것이다.

ch03 - gghistostats

Intro A picture is worth a thousand words — English Language Adage The simple graph has brought more information to the data analyst’s mind than any other device. — John Tukey 한장의 그림이 수천단어보다 가치가 있다는 영어속담과, 명료한 시각화가 데이터분석가에게 다른 어떤 도구보다 더 많은 정보를 제공한다는 유명한 데이터 과학자의 조언. 핵심은 시각화이다. 본 장에서는 ggplot2 패키지를 활용한 시각화를 먼저 보여줄 것이다. 먼저 간단하게 ggplot2 패키지에 소개하자면 Grammar of Graphics1의 철학을 담아서 R 생태계에서 유명한 학자 중, Hadley Wickham에 의해 주도적으로 개발되었다.