공지 제 전공과 관련하여 주요 자료를 정리하였습니다. 데이터과학의 다양한 이론 중에서 국제개발에 적용시킬만한 내용이 무엇인지 고민하며 계속적으로 자료를 업데이트 할 예정입니다.
OECD 자료 DAC Peer Review Reference Guide 대략 5년 마다 한번씩 각 회원국들의 개발협력 정책과 사업들에 대해 면밀히 검토를 하고 있으며, 연간 6개 회원국들을 대상으로 한다. 이 때, 위 문서를 근거로 동료 평가를 시행한다. OECD Development Co-operation Peer Reviews: Korea 2018 한국어: OECD 개발협력 동료검토 Peer Reviews 대한민국 2018 UN 자료 The Sustainable Development Goals Report 2020 Project Management Project Cycle Management Project Design Matrix Logical Framework Approach
Intro 지난 시간에 설문조사 전처리에 대해 배웠다면 이번에는 경영/사회과학 논문에서 필수적으로 기재해야 하는 표본의 특성을 간단한 프로그램으로 요약하는 것을 코딩한다. (1) 주요 패키지 이번 포스트부터 gt 패키지를 사용하려고 한다. gt: ggplot2와 같이 Table를 문법으로 컨트롤 할 수 있도록 구현된 패키지이다. kableExtra: HTML로 출력할 수 있도록 도와주는 패키지이다. library(readr) library(dplyr) library(gt) library(gtsummary) I. 데이터 가져오기 우선 데이터를 불러온다. data <- read_csv('data/thesis_mater.csv') %>% distinct() %>% # 중복데이터 제거 rename(Position = founder_employee, # 출력을 위한 변수명 정리 Age = age_of_respondent, Education = Education_Level) glimpse(data %>% select(Firm_Age:Business_Area)) 전체 34개의 변수 중에서, 문자열 관련 데이터만 추출하였다.
공지 본 포스트는 데이터 시각화 교과서 내용의 일부를 요약하였다. 본 포스트를 읽고 가급적 전체 내용 숙지를 위해 구매하는 것을 권유한다. 개요 수치형 자료를 Y축으로 놓는 그래프는 언제나 힘들었다. log Scale을 통해 값의 크기를 줄이기는 하지만, Y축을 어떻게 표현하는 것이 좋을지에 대한 고민은 늘 있어왔다. 시각화 이론 중심의 포스팅이기에 코드 리뷰 및 해석은 생략한다. 문제점 log Scale을 적용했을 때와 그렇지 않을 때의 그래프를 비교해본다. (1) 패키지 불러오기 각각의 패키지를 불러온다. 이 때, 데이터는 dviz.
Intro 설문조사가 끝났으면 이제 정리를 해야 한다. 일련의 과정은 보통 코딩이라 부른다. (1) 주요 패키지 이번 포스트부터 gt 패키지를 사용하려고 한다. gt: ggplot2와 같이 Table를 문법으로 컨트롤 할 수 있도록 구현된 패키지이다. kableExtra: HTML로 출력할 수 있도록 도와주는 패키지이다. 문제점 SmartPLS 프로그램을 쓴다 하더라도 기본적으로 모든 데이터의 entry는 수치형으로 일단 바뀌어 있어야 한다. 우선 데이터를 불러와서 확인해보자. library(tidyverse) library(gt) library(kableExtra) # 데이터 불러오기 data <- read_csv("data/thesis_mater.csv") data %>% head() %>% kable() %>% kable_styling("striped") %>% scroll_box(width = "100%") EI_1 EI_2 EI_3 EP_1 EP_2 EP_3 ER_1 ER_2 ER_3 SS_1 SS_2 SS_3 SC_1 SC_2 SC_3 SR_1 SR_2 SR_3 F1 F2 F3 NF1 NF2 NF3 Firm_Age Firm_Size WE1 WE2 WE3 gender founder_employee age_of_respondent Education_Level Business_Area 2 3 4 3 3 4 3 2 4 1 1 3 3 3 3 2 2 1 2 2 3 3 1 3 5 years above Above 15 members No, I don't have experience Yes Yes Female Employee 30-39 Undergraduate School Others 5 5 2 3 5 3 4 4 4 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 Less than 2 years Less than 5 members No, I don't have experience No Yes Male Employee Younger than 30 Undergraduate School Media and Entertainment 1 2 2 1 1 2 1 2 1 2 2 1 1 2 2 1 2 1 2 1 1 1 1 1 5 years above Less than 5 members As founder or employee, I have startup experiences more than 3 times No Yes Female Founder of Company Younger than 30 Undergraduate School Others 3 3 2 1 2 1 2 1 3 2 1 3 1 1 1 2 3 3 3 3 2 3 2 2 Less than 2 years Less than 5 members No, I don't have experience Yes Yes Male Employee Younger than 30 Undergraduate School Others 5 3 5 2 5 4 4 4 4 4 5 4 5 5 5 5 5 5 4 5 4 4 5 5 3-4 years Less than 5 members As founder or employee, I have startup experiences more than 3 times No Yes Male Founder of Company 30-39 Undergraduate School Others 1 3 3 1 3 3 2 3 1 4 1 2 3 3 1 2 2 1 1 2 3 1 3 1 5 years above 5-9 members As founder or employee, I have startup experience, one time No No Female Employee Younger than 30 Undergraduate School Others 위 데이터에서 보면 알 수 있듯이, WE1 ~ Business_Area 까지의 데이터는 모두 문자로 되어 있다.
I. 연구모델 개발과 가설 설정 교재에서는 스마트폰 프로젝트의 연구모델 데이터를 기반으로 작성하였지만, 이번 포스트 이후 부터는 필자의 학위논문 데이터를 기반으로 책 내용과 병행하려고 한다. (1) 연구모델 개요 학위논문 주제: The Mediating Effect of Entrepreneurial Performance on the Relationship between Entrepre-neurial Orientation and Social Capital: The cases from the Philippines 주요요인은 기업가적지향성, 사회적자본이며, 종속변수는 기업의 성과로 구성되어 있다. 설문지 공개관련: 설문지 Sample이 필요하신 분들은 2021년 2월 이후에 요청하기를 바란다. (졸업이후) 교재는 스마트폰 프로젝트의 연구 모델이라는 주제로 Sample 설문지 문항에 대한 내용이 있다.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 공지 본 포스트는 필자의 수업을 듣는 사람들을 위해 작성하였습니다. I. 구글 드라이브와 Colab과 연동 구글 드라이브와 Colab과 연동하면 보다 쉽게 데이터에 접근할 수 있다. 구글 인증만 하면 된다. # Google Drive와 마운트 from google.colab import drive ROOT = '/content/drive' drive.
I. PLS-SEM 통계 기초 교재를 참고하여 통계 기초에 대한 간단한 설명을 서술한다. 이는 다른 통계 책에도 있는 내용이기는 하다. 지난 시간에, PLS-SEM의 분포, 유의 수준과 신뢰수준의 관계, 신뢰도와 타당도, 탐색적 요인분석과 확인적 요인분석, 회귀분석에 대해 설명함 참조: PLS-SEM 통계 분석기법(1) (1) 추정과 신뢰구간 추정(estimation)이란 모집단에 대한 어떠한 정보도 없는 상태에서 모집단을 대표할 수 있는 표본 추출하여 표본의 통계량을 구한 다음 이를 이용해서 모집단의 모수 예측 점추정(Point Estimation): 추정하고자 하는 모수를 하나의 수치로 추정 신뢰구간 추정(Confidence Interval Estimation): 추정하고자 하는 모수가 존재하리라고 예상되는 신뢰구간을 정하여 추정하는 방법 신뢰구간에서는 보통 t분포 이용.
I. PLS-SEM 통계 기초 교재를 참고하여 통계 기초에 대한 간단한 설명을 서술한다. 이는 다른 통계 책에도 있는 내용이기는 하다. (1) PLS-SEM의 분포 PLS-SEM은 검증 통계량으로 t분포와 t값을 활용함. t분포는 평균이 0, 표준편차가 1인 종모양의 좌우대칭인 분포 유의수준 확인 지표는 p값을 활용함. (사회과학 분야에서는 유의수준 5% 이내) (2) 유의수준과 신뢰수준의 관계 유의수준이 $\alpha$ 이면 신뢰수준은 $1−\alpha$ 가 됨. 즉, 신뢰수준은 허용오차수준인 유의수준에 따라 결정됨. (3) 신뢰도(Reliability)와 타당도(Validity) PLS-SEM은 측정모델과 구조모델을 동시에 분석함.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 공지 본 자료는 강의 수업의 보충 자료로 사용되었습니다. 자세한 내용은 Reference를 확인하시기를 바랍니다. Setup File 외부 설정 파일이 필요하다. 참조: Mask R-CNN for Object Detection and Segmentation shell script에서 작성한다. %%shell # clone Mask_RCNN repo and install packages git clone https://github.
개요 Kaggle 대회인 `Titanic’대회를 통해 분류 모형을 만들어본다. 본 강의는 수업 자료의 일부로 작성되었다. I. 사전 준비작업 Kaggle API 설치 및 연동해서 GCP에 데이터를 적재하는 것까지 진행한다. (1) Kaggle API 설치 구글 코랩에서 API를 불러오려면 다음 소스코드를 실행한다. !pip install kaggle Requirement already satisfied: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6) Requirement already satisfied: requests in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.23.0) Requirement already satisfied: urllib3<1.25,>=1.21.1 in /usr/local/lib/python3.6/dist-packages (from kaggle) (1.24.3) Requirement already satisfied: python-slugify in /usr/local/lib/python3.