R

ch05 - Log Scale Visualisation

공지 본 포스트는 데이터 시각화 교과서 내용의 일부를 요약하였다. 본 포스트를 읽고 가급적 전체 내용 숙지를 위해 구매하는 것을 권유한다. 개요 수치형 자료를 Y축으로 놓는 그래프는 언제나 힘들었다. log Scale을 통해 값의 크기를 줄이기는 하지만, Y축을 어떻게 표현하는 것이 좋을지에 대한 고민은 늘 있어왔다. 시각화 이론 중심의 포스팅이기에 코드 리뷰 및 해석은 생략한다. 문제점 log Scale을 적용했을 때와 그렇지 않을 때의 그래프를 비교해본다. (1) 패키지 불러오기 각각의 패키지를 불러온다. 이 때, 데이터는 dviz.

ch 11 - Data Import & Label Encoding in R

Intro 설문조사가 끝났으면 이제 정리를 해야 한다. 일련의 과정은 보통 코딩이라 부른다. (1) 주요 패키지 이번 포스트부터 gt 패키지를 사용하려고 한다. gt: ggplot2와 같이 Table를 문법으로 컨트롤 할 수 있도록 구현된 패키지이다. kableExtra: HTML로 출력할 수 있도록 도와주는 패키지이다. 문제점 SmartPLS 프로그램을 쓴다 하더라도 기본적으로 모든 데이터의 entry는 수치형으로 일단 바뀌어 있어야 한다. 우선 데이터를 불러와서 확인해보자. library(tidyverse) library(gt) library(kableExtra) # 데이터 불러오기 data <- read_csv("data/thesis_mater.csv") data %>% head() %>% kable() %>% kable_styling("striped") %>% scroll_box(width = "100%") EI_1 EI_2 EI_3 EP_1 EP_2 EP_3 ER_1 ER_2 ER_3 SS_1 SS_2 SS_3 SC_1 SC_2 SC_3 SR_1 SR_2 SR_3 F1 F2 F3 NF1 NF2 NF3 Firm_Age Firm_Size WE1 WE2 WE3 gender founder_employee age_of_respondent Education_Level Business_Area 2 3 4 3 3 4 3 2 4 1 1 3 3 3 3 2 2 1 2 2 3 3 1 3 5 years above Above 15 members No, I don't have experience Yes Yes Female Employee 30-39 Undergraduate School Others 5 5 2 3 5 3 4 4 4 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 Less than 2 years Less than 5 members No, I don't have experience No Yes Male Employee Younger than 30 Undergraduate School Media and Entertainment 1 2 2 1 1 2 1 2 1 2 2 1 1 2 2 1 2 1 2 1 1 1 1 1 5 years above Less than 5 members As founder or employee, I have startup experiences more than 3 times No Yes Female Founder of Company Younger than 30 Undergraduate School Others 3 3 2 1 2 1 2 1 3 2 1 3 1 1 1 2 3 3 3 3 2 3 2 2 Less than 2 years Less than 5 members No, I don't have experience Yes Yes Male Employee Younger than 30 Undergraduate School Others 5 3 5 2 5 4 4 4 4 4 5 4 5 5 5 5 5 5 4 5 4 4 5 5 3-4 years Less than 5 members As founder or employee, I have startup experiences more than 3 times No Yes Male Founder of Company 30-39 Undergraduate School Others 1 3 3 1 3 3 2 3 1 4 1 2 3 3 1 2 2 1 1 2 3 1 3 1 5 years above 5-9 members As founder or employee, I have startup experience, one time No No Female Employee Younger than 30 Undergraduate School Others 위 데이터에서 보면 알 수 있듯이, WE1 ~ Business_Area 까지의 데이터는 모두 문자로 되어 있다.

ch 10 - 연구모델 개발과 가설 설정

I. 연구모델 개발과 가설 설정 교재에서는 스마트폰 프로젝트의 연구모델 데이터를 기반으로 작성하였지만, 이번 포스트 이후 부터는 필자의 학위논문 데이터를 기반으로 책 내용과 병행하려고 한다. (1) 연구모델 개요 학위논문 주제: The Mediating Effect of Entrepreneurial Performance on the Relationship between Entrepre-neurial Orientation and Social Capital: The cases from the Philippines 주요요인은 기업가적지향성, 사회적자본이며, 종속변수는 기업의 성과로 구성되어 있다. 설문지 공개관련: 설문지 Sample이 필요하신 분들은 2021년 2월 이후에 요청하기를 바란다. (졸업이후) 교재는 스마트폰 프로젝트의 연구 모델이라는 주제로 Sample 설문지 문항에 대한 내용이 있다.

ch 09 - PLS-SEM 통계 분석기법(2)

I. PLS-SEM 통계 기초 교재를 참고하여 통계 기초에 대한 간단한 설명을 서술한다. 이는 다른 통계 책에도 있는 내용이기는 하다. 지난 시간에, PLS-SEM의 분포, 유의 수준과 신뢰수준의 관계, 신뢰도와 타당도, 탐색적 요인분석과 확인적 요인분석, 회귀분석에 대해 설명함 참조: PLS-SEM 통계 분석기법(1) (1) 추정과 신뢰구간 추정(estimation)이란 모집단에 대한 어떠한 정보도 없는 상태에서 모집단을 대표할 수 있는 표본 추출하여 표본의 통계량을 구한 다음 이를 이용해서 모집단의 모수 예측 점추정(Point Estimation): 추정하고자 하는 모수를 하나의 수치로 추정 신뢰구간 추정(Confidence Interval Estimation): 추정하고자 하는 모수가 존재하리라고 예상되는 신뢰구간을 정하여 추정하는 방법 신뢰구간에서는 보통 t분포 이용.

ch 09 - PLS-SEM 통계 분석기법(1)

I. PLS-SEM 통계 기초 교재를 참고하여 통계 기초에 대한 간단한 설명을 서술한다. 이는 다른 통계 책에도 있는 내용이기는 하다. (1) PLS-SEM의 분포 PLS-SEM은 검증 통계량으로 t분포와 t값을 활용함. t분포는 평균이 0, 표준편차가 1인 종모양의 좌우대칭인 분포 유의수준 확인 지표는 p값을 활용함. (사회과학 분야에서는 유의수준 5% 이내) (2) 유의수준과 신뢰수준의 관계 유의수준이 $\alpha$ 이면 신뢰수준은 $1−\alpha$ 가 됨. 즉, 신뢰수준은 허용오차수준인 유의수준에 따라 결정됨. (3) 신뢰도(Reliability)와 타당도(Validity) PLS-SEM은 측정모델과 구조모델을 동시에 분석함.

ch 08 - SmartPLS 소프트웨어 소개

I. SmartPLS 설치 SmartPLS는 구조방정식모델링을 위한 전용 통계분석 프로그램으로 다양한 학문 분야에서 광범위하게 사용됨. 편이성, 친숙성, 안정성 면에서 매우 우수함. 매우 적은 소표본에서도 활용할 수 있음. 정규분포 등의 엄격한 가정 조건에 구애받지 않고 사용할 수 있음. 프로그램 설치는 아래 링크를 클릭한다. Download latest version - SmartPLS 3.3.2 학생용 버전은 평생 무료이며, 약간의 사용상 제약이 존재한다. II. SmartPLS 관련 자료 교제 추천 원서 - A Primer on Partial Least Squares Structural Equation Modeling(PLS-SEM) (2013) 번역서 - PLS 구조모델의 이해 (2014) 국내저서 - 석박사학위 및 학술논문 작성 중심의 SmartPLS 3.

ch 07 - 데이터 검토

개요 수집된 데이터에 대해 정규성 검증을 하는 것은 중요하다. 그런데, CB-SEM과 PLS-SEM의 기준 조건은 조금 상이하다. 정규성 분포 확인 Kolmogorov-Smirnov Test 또는 Shapiro-Wilk Test를 통해서 검증한다. 귀무가설: 데이터분포를 정규분포를 이룬다, p-value > 0.05 데이터가 치우쳐 있는 정도를 나타내는 왜도(skewness: S)와 첨도(Kurtosis: K)를 검토한다. 첨도와 왜도가 -1보다 작거나 또는 +1 보다 크지 않으면 변수는 정규분포를 하고 있다고 판단한다. 그러나, 이 부분은 분석 방법에 대해 조금 상이하다. 회귀 분석: 엄밀하게는 2, 관용적으로 3을 사용함.

ch 06 - 표본의 크기

개요 PLS-SEM은 작은 표본 크기에 의해 식별 문제가 발생하지 않으며 모델이 복잡하고 표본크기가 작은 상황에서도 높은 수준의 통게적 검증력을 가짐 일반적으로 CB-SEM의 경우 표본 크기가 200개 이상이 필요한 것으로 알려짐 반대로 PLS-SEM은 30-100개 정도의 소표본인 경우에도 적용할 수 있다. 표본크기를 증가시키면 모델 추정의 정확성이 높아지나 표본이 250개 이상이 넘어가면 CB-SEM과 차이점이 없어진다. 최소 표본 크기 Chin(1988)과 Barclay, Higgins & Thompson(1995)는 최소표본크기 결정에 있어서 10배수 규칙(10 times rule)을 제안함. 단일 잠재변수(구성개념)을 측정하는 데 사용된 형성적 지표 최대수의 10보다 커야 함 구조모델에서 특정 잠재변수(구성개념)로 향하는 경로 최대수의 10배 보다 커야 함 이러한 10배수 규칙에 의하면 PLS-SEM을 사용하는 데 있어서 최소한의 표본크기는 형성적 측정 모델과 반영적 측정모델이 모두 구조모델 속에 포함되어 있는 경우에는 두 기준 모두 적용해 판단한다.

ch 05 - 측정척도의 유형과 내용

개요 데이터의 유형에는 크게 4가지가 있다. 명목척도, 서열척도, 등간척도, 비율척도 그중에서 PLS-SEM 분석 시에 필요한 척도는 등간척도와 비율척도이다. 간혹, 범주형 변수의 경우 더미변수(Dummy Variable)로 변환하여 투입하기도 한다. 데이터의 유형 (1) 명목척도 범주형 데이터로 측정된 측정대상으로 단순히 범주로 분류하기 위한 목적으로 숫자를 부여한 척도 예시: 성별, 종교, 직업, 혈액형, 만족여부(예/아니오) (2) 서열척도 범주형 데이터로 명목척도의 기능뿐 아니라 각 범주 간의 대소관계, 순위(서열성)에 관하여 숫자를 부여한 척도(수학적 가감승제 계산 안 됨) 예시: 학력, 건강상태 등 (3) 등간척도 연속형 데이터로 절대적 영점(Absolute Zero)이 없으며 대상이 갖는 양적인 정도의 차이에 따라 등간격으로 숫자를 부여한 척도(수학적 가감승제 계산 가능) 예시: 온도, 만족도(리커트척도), 충성도(리커트척도), 물가지수, 생산지수 등 (4) 비율척도 연속형 데이터로 절대적 영점이 존재하며, 비율계산이 가능한 숫자를 부여한 척도(수학적 가감승제 계산 가능) 매출액, 무게, 가격, 소득, 길이, 부피 등 통계기법의 선택 변수의 성격에 따라 다른 통계기법이 선택될 수 있다.

ch 04 - 반영적 지표와 형성적 지표

개요 인과방향에 따라 지표를 반영적 지표(reflective indicator) 형성적 지표(formative indicator)로 구분한다. -반영적 지표는 잠재변수가 원인이 되고 측정변수들이 결과가 되는 지표로 잠재변수가 측정변수를 야기하는 것으로 가정함 형성적 지표는 측정변수가 원인이 되고 잠재변수가 결과가 되는 지표로 측정변수가 잠재변수를 야기하는 것으로 가정함. 화살표의 방향은 측정변수에서 잠재변수로 표시됨. I. 반영적 지표와 형성적 지표 (1) 인과관계(화살표)의 방향 반영적 지표: 잠재변수 $\rightarrow$ 측정변수(지표들) 형성적 지표: 측정변수(지표들) $\rightarrow$ (2) 측정변수(지표)간 상관 반영적 지표: 설문지법 적용 시, 각 설문문항은 유사한 것들로 구성되어 있어야 함