Data Analysis

ch 04 - 반영적 지표와 형성적 지표

개요 인과방향에 따라 지표를 반영적 지표(reflective indicator) 형성적 지표(formative indicator)로 구분한다. -반영적 지표는 잠재변수가 원인이 되고 측정변수들이 결과가 되는 지표로 잠재변수가 측정변수를 야기하는 것으로 가정함 형성적 지표는 측정변수가 원인이 되고 잠재변수가 결과가 되는 지표로 측정변수가 잠재변수를 야기하는 것으로 가정함. 화살표의 방향은 측정변수에서 잠재변수로 표시됨. I. 반영적 지표와 형성적 지표 (1) 인과관계(화살표)의 방향 반영적 지표: 잠재변수 $\rightarrow$ 측정변수(지표들) 형성적 지표: 측정변수(지표들) $\rightarrow$ (2) 측정변수(지표)간 상관 반영적 지표: 설문지법 적용 시, 각 설문문항은 유사한 것들로 구성되어 있어야 함

ch 03 - PLS-SEM 주요 개념

개요 PLS-SEM의 주요 개념 및 유사용어에 대해 살펴본다. 영어로 논문을 써야하기 때문에, 한국어와 영어를 같이 표기했다. 주요개념 잠재변수(Latent Variable): 직접 측정되지 않는 비관측변수(Unobserved Variable)로 측정변수를 통해 간접적으로 측정. 잠재변인, 구인, 구성개념(construct), 차원(dimension), 요인, 이론변수라고도 하며 경로도에는 circle로 표시됨 측정변수(Measured Variable): 직접 측정되는 관측변수(Observed Variable)로 잠재변수를 측정하기 위해 사용된 변수를 말함. (설문문항이 여기에 해당됨 지표변수(Indicator Variable), 명시변수(Manifest Variable), 측정항목(Items)로 표기되며 직사각형 또는 정사각형으로 표시함 외생변수(Exogenous Variable): 독립변수의 개념으로 다른 변수의 변화에 원인(Causes)이나 동기의 역할을 하는 변수로 경로도에서 화살표가 시작이 되는 모든 변수 말함 잠재변수 개념과 결합되면 외생잠재변수(Exogenous Latent Variable)가 됨 내생변수(Endogenous Variable): 종속변수의 개념으로 다른 변수에 의해 영향을 받는 변수이며 화살표를 받는 변수를 말함.

ch 02 - 구조방정식의 기본 개념과 고려사항

개요 기본적으로 다변량 분석 1세대 분석 방법론 군집분석, EFA, 분산분석, 다항회귀, 로지스틱 회귀분석 2세대 분석 방법론 PLS-SEM and CB-SEM 간단한 용어 정리 SEM - Structural Equation Modeling CB - Covariance Based SEM PLS - Partial Least Squares SEM (= PLS path Modeling) CB-SEM의 주 목적은 실증적으로 검증 가능한 다중 변수들 간의 체계적 관계 확인 PLS-SEM은 주로 탐험적 연구에서의 이론발전에 주로 사용되며, 종속변수의 분산을 설명하는데 주 초점을 맞준다. 본 논문에서는 필리핀에서의 스타트업 등에 관련된 논문 및 자료 수집에 한계가 있기 때문에 PLS-SEM 분석방법론을 채택하여 탐험연구에 준하여 분석을 진행한다.

ch 01 - PLS SEM Intro

개요 석사 학위 논문을 위해 작성하기 위해 만들었음 PLS SEM 모델링을 위한 R 패키지가 존재함 plspm: 2020년 5월 14일 R Cran에서 정식 패키지에서 내려감 위 패키지는 원서 약 230페이지 되는 교재도 있음 1차로 위 패키지를 고려했으나 5/14일 패키지가 내려간 이후 선택에서 제외시킴 또한, SMART PLS라는 상용프로그램도 존재함 특정 R semPLS와 위 상용 프로그램을 비교한 논문이 있었고, 다행히 두 프로그램의 결과값이 동일한 것으로 증명되었다. ref. Utilization of R Program for the Partial Least Square Model: Comparison of SmartPLS and R 아직 확정지은 것은 아니지만, 향후 추가적인 논문을 진행한다면 위 2개의 패키지와 SMART PLS 상용 소프트웨어를 비교하는 논문도 괜찮을 것이라 생각함 교재 이론적인 공부 및 Self-Study를 위해 크게 2가지 방향성을 잡고 공부하려고 함 이론서 1: PLS-SEM Book: A Primer on PLS-SEM (2nd Ed.

Ch03 Components of Process Data

I. 개요 지난시간에 patients에 관한 데이터를 통해서 프로세스 분석에 대한 일반적인 개념을 접했다. 이번 포스트에서는 bupaR에 대한 이론적인 내용과 함께 간단하게 실습을 진행하도록 한다. 지난시간과 마찬가지로 먼저 데이터를 획득하는 것에서부터 출발한다. library(bupaR) library(eventdataR) patients <- patients dim(patients) ## [1] 5442 7 5442행과 7개의 열이 확인되었다. class(patients) ## [1] "eventlog" "tbl_df" "tbl" "data.frame" II. 용어 정리 우선 용어 정리가 필요하다. Events, Event log, Activity 등등. 하나씩 살펴보자. (1) Events 우선 Events에 관한 이해를 돕기 위해 아래 그림을 우선 살펴보자.

Ch02 Process Analysis Basic

I. 개요 지난시간에 patients에 관한 데이터를 통해서 프로세스 분석에 대한 일반적인 개념을 접했다. 이번 포스트에서는 bupaR에 대한 이론적인 내용과 함께 간단하게 실습을 진행하도록 한다. 지난시간과 마찬가지로 먼저 데이터를 획득하는 것에서부터 출발한다. library(bupaR) library(eventdataR) patients <- patients dim(patients) ## [1] 5442 7 5442행과 7개의 열이 확인되었다. class(patients) ## [1] "eventlog" "tbl_df" "tbl" "data.frame" 그리고, 데이터는 eventlog, tbl_df, data.frame으로 구성된 것을 확인할 수 있다. 기존에 R을 학습한 사람들은 tbl & data.frame에 대해서 한두번쯤 들었을 거라 생각한다.

Ch01 Process Analysis Intro

I. Process Mining Intro 모든 비즈니스는 프로세스와 연관이 깊다. 이러한 데이터를 통상적으로 event라고 부르며, 다루는 데이터는 log 데이터와 연관이 깊다. 프로세스 마이닝(Process Mining)은 데이터의 추출, 프로세싱, 그리고 분석의 순으로 진행한다. 데이터 추출 (Extraction): Raw Data를 Event Data로 변환시킨다. 프로세싱 (Processing): 데이터 가공과 비슷하며, 보통 Aggregation, Filtering, Enrichment의 용어가 등장한다. 분석 (Analysis): Performance, Control-Flow 등과 연관된 분석이 진행된다. 우선 빠르게 시각화부터 진행해보자. library(bupaR) library(httr) library(processmapR) library(edeaR) url <- 'https://github.com/chloevan/datasets/blob/master/log/log_eat_patterns.RDS?raw=true' patterns <- readRDS(url(url)) trace_explorer(patients, coverage=1) 위 그래프에 대한 해석은 나중에 하더라도, 위 데이터를 보면, Rgst아 TraA는 공통으로 존재하고, 경로에 따라서 X-Ray, Blood Test에 나뉘는 걸 봐서는 환자의 경로에 관한 데이터임을 알 수 있다.