데이콘 대회 참여 - 04 데이터셋 분리

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

ch 06 - 표본의 크기

개요 PLS-SEM은 작은 표본 크기에 의해 식별 문제가 발생하지 않으며 모델이 복잡하고 표본크기가 작은 상황에서도 높은 수준의 통게적 검증력을 가짐 일반적으로 CB-SEM의 경우 표본 크기가 200개 이상이 필요한 것으로 알려짐 반대로 PLS-SEM은 30-100개 정도의 소표본인 경우에도 적용할 수 있다. 표본크기를 증가시키면 모델 추정의 정확성이 높아지나 표본이 250개 이상이 넘어가면 CB-SEM과 차이점이 없어진다. 최소 표본 크기 Chin(1988)과 Barclay, Higgins & Thompson(1995)는 최소표본크기 결정에 있어서 10배수 규칙(10 times rule)을 제안함. 단일 잠재변수(구성개념)을 측정하는 데 사용된 형성적 지표 최대수의 10보다 커야 함 구조모델에서 특정 잠재변수(구성개념)로 향하는 경로 최대수의 10배 보다 커야 함 이러한 10배수 규칙에 의하면 PLS-SEM을 사용하는 데 있어서 최소한의 표본크기는 형성적 측정 모델과 반영적 측정모델이 모두 구조모델 속에 포함되어 있는 경우에는 두 기준 모두 적용해 판단한다.

데이콘 대회 참여 - 03 데이터 샘플링과 종속변수 로그변환

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 사전작업 먼저 구글 코랩 내에서 pandas_profiling을 확인하기 위해 master.zip을 설치한다. ref. https://github.com/pandas-profiling/pandas-profiling 설치가 끝나면 구글코랩에서 런타임 다시 시작 한다. !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip . . . Successfully built pandas-profiling I. 빅쿼리 연동 지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.

ch 05 - 측정척도의 유형과 내용

개요 데이터의 유형에는 크게 4가지가 있다. 명목척도, 서열척도, 등간척도, 비율척도 그중에서 PLS-SEM 분석 시에 필요한 척도는 등간척도와 비율척도이다. 간혹, 범주형 변수의 경우 더미변수(Dummy Variable)로 변환하여 투입하기도 한다. 데이터의 유형 (1) 명목척도 범주형 데이터로 측정된 측정대상으로 단순히 범주로 분류하기 위한 목적으로 숫자를 부여한 척도 예시: 성별, 종교, 직업, 혈액형, 만족여부(예/아니오) (2) 서열척도 범주형 데이터로 명목척도의 기능뿐 아니라 각 범주 간의 대소관계, 순위(서열성)에 관하여 숫자를 부여한 척도(수학적 가감승제 계산 안 됨) 예시: 학력, 건강상태 등 (3) 등간척도 연속형 데이터로 절대적 영점(Absolute Zero)이 없으며 대상이 갖는 양적인 정도의 차이에 따라 등간격으로 숫자를 부여한 척도(수학적 가감승제 계산 가능) 예시: 온도, 만족도(리커트척도), 충성도(리커트척도), 물가지수, 생산지수 등 (4) 비율척도 연속형 데이터로 절대적 영점이 존재하며, 비율계산이 가능한 숫자를 부여한 척도(수학적 가감승제 계산 가능) 매출액, 무게, 가격, 소득, 길이, 부피 등 통계기법의 선택 변수의 성격에 따라 다른 통계기법이 선택될 수 있다.

ch 04 - 반영적 지표와 형성적 지표

개요 인과방향에 따라 지표를 반영적 지표(reflective indicator) 형성적 지표(formative indicator)로 구분한다. -반영적 지표는 잠재변수가 원인이 되고 측정변수들이 결과가 되는 지표로 잠재변수가 측정변수를 야기하는 것으로 가정함 형성적 지표는 측정변수가 원인이 되고 잠재변수가 결과가 되는 지표로 측정변수가 잠재변수를 야기하는 것으로 가정함. 화살표의 방향은 측정변수에서 잠재변수로 표시됨. I. 반영적 지표와 형성적 지표 (1) 인과관계(화살표)의 방향 반영적 지표: 잠재변수 $\rightarrow$ 측정변수(지표들) 형성적 지표: 측정변수(지표들) $\rightarrow$ (2) 측정변수(지표)간 상관 반영적 지표: 설문지법 적용 시, 각 설문문항은 유사한 것들로 구성되어 있어야 함

Python for loop example

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 I. 개요 지난 시간에 for_loop의 기본적인 개념에 대해 살펴봤다. 참조: [Python] for loops in different ways 이번 시간에는 for_loop의 실제 다양한 활용 방안에 대해 살펴본다. II. 데이터 시각화 변수의 개수에 상관없이 for-loop를 활용하면 무한대로 시각화를 작성할 수 있다.

데이콘 대회 참여 - 02 GBM을 활용한 머신러닝 예제

공지 제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다. 개요 본 예제에서는 제주 빅데이터 경진대회에서 제공하는 베이스라인 코드를 살려서 작성하였다. 처음 대회를 입문하는 데 있어서, 빠르게 제출하는 것에 의미부여를 하기 바란다. 참조: https://dacon.io/competitions/official/235615/codeshare/1228 다만, 데이터를 불러오는 영역 및 머신러닝 모형 알고리즘만 조금 수정하였다. 향후 매일 업데이트 하면서 일종의 가이드라인이 되었으면 좋겠다.

ch 03 - PLS-SEM 주요 개념

개요 PLS-SEM의 주요 개념 및 유사용어에 대해 살펴본다. 영어로 논문을 써야하기 때문에, 한국어와 영어를 같이 표기했다. 주요개념 잠재변수(Latent Variable): 직접 측정되지 않는 비관측변수(Unobserved Variable)로 측정변수를 통해 간접적으로 측정. 잠재변인, 구인, 구성개념(construct), 차원(dimension), 요인, 이론변수라고도 하며 경로도에는 circle로 표시됨 측정변수(Measured Variable): 직접 측정되는 관측변수(Observed Variable)로 잠재변수를 측정하기 위해 사용된 변수를 말함. (설문문항이 여기에 해당됨 지표변수(Indicator Variable), 명시변수(Manifest Variable), 측정항목(Items)로 표기되며 직사각형 또는 정사각형으로 표시함 외생변수(Exogenous Variable): 독립변수의 개념으로 다른 변수의 변화에 원인(Causes)이나 동기의 역할을 하는 변수로 경로도에서 화살표가 시작이 되는 모든 변수 말함 잠재변수 개념과 결합되면 외생잠재변수(Exogenous Latent Variable)가 됨 내생변수(Endogenous Variable): 종속변수의 개념으로 다른 변수에 의해 영향을 받는 변수이며 화살표를 받는 변수를 말함.

Python for loops in different ways

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 I. 개요 여러 형태의 반복문을 배우고 실습한다. 한줄로 작성하는 반복문을 배우고 실습한다. II. For Loop Basic Syntax 파이썬의 기본 문법은 아래와 같다. for <변수> in <iterable>: <코드> 여기에서 iterable의 개념은 list와 tuple을 의미한다. 간단하게 for_loop 코드를 작성해보자.

ch 02 - 구조방정식의 기본 개념과 고려사항

개요 기본적으로 다변량 분석 1세대 분석 방법론 군집분석, EFA, 분산분석, 다항회귀, 로지스틱 회귀분석 2세대 분석 방법론 PLS-SEM and CB-SEM 간단한 용어 정리 SEM - Structural Equation Modeling CB - Covariance Based SEM PLS - Partial Least Squares SEM (= PLS path Modeling) CB-SEM의 주 목적은 실증적으로 검증 가능한 다중 변수들 간의 체계적 관계 확인 PLS-SEM은 주로 탐험적 연구에서의 이론발전에 주로 사용되며, 종속변수의 분산을 설명하는데 주 초점을 맞준다. 본 논문에서는 필리핀에서의 스타트업 등에 관련된 논문 및 자료 수집에 한계가 있기 때문에 PLS-SEM 분석방법론을 채택하여 탐험연구에 준하여 분석을 진행한다.