데이터 분석

취업준비생을 위한 Github 포트폴리오 정리

강의소개 인프런에서 Streamlit 관련 강의를 진행하고 있습니다. 인프런 : https://inf.run/YPniH 개요 Github에서 포트폴리오 정리하는 방법에 대해 기술합니다. 취업준비생들의 취업을 진심으로 응원합니다. 취업준비생들에게 개발이란 Github에 배포를 하겠다는 뜻은 앞으로 계속적으로 발전 시키겠다는 것을 의미합니다. 그런데, 개발은 혼자 할 수 없기 때문에 다른 사람들의 참여를 독려하겠다는 것과 같습니다. 가장 좋은 시나리오는 간단하게 배포를 진행하고 프로젝트의 전반적인 취지를 설명한 후 함께 발전시켜 나갈 동료를 구하는 것입니다. 이러한 기본적인 관점에서 Github 포트폴리오를 구성하는 것이 좋습니다.

Ch03 Components of Process Data

I. 개요 지난시간에 patients에 관한 데이터를 통해서 프로세스 분석에 대한 일반적인 개념을 접했다. 이번 포스트에서는 bupaR에 대한 이론적인 내용과 함께 간단하게 실습을 진행하도록 한다. 지난시간과 마찬가지로 먼저 데이터를 획득하는 것에서부터 출발한다. library(bupaR) library(eventdataR) patients <- patients dim(patients) ## [1] 5442 7 5442행과 7개의 열이 확인되었다. class(patients) ## [1] "eventlog" "tbl_df" "tbl" "data.frame" II. 용어 정리 우선 용어 정리가 필요하다. Events, Event log, Activity 등등. 하나씩 살펴보자. (1) Events 우선 Events에 관한 이해를 돕기 위해 아래 그림을 우선 살펴보자.

Ch02 Process Analysis Basic

I. 개요 지난시간에 patients에 관한 데이터를 통해서 프로세스 분석에 대한 일반적인 개념을 접했다. 이번 포스트에서는 bupaR에 대한 이론적인 내용과 함께 간단하게 실습을 진행하도록 한다. 지난시간과 마찬가지로 먼저 데이터를 획득하는 것에서부터 출발한다. library(bupaR) library(eventdataR) patients <- patients dim(patients) ## [1] 5442 7 5442행과 7개의 열이 확인되었다. class(patients) ## [1] "eventlog" "tbl_df" "tbl" "data.frame" 그리고, 데이터는 eventlog, tbl_df, data.frame으로 구성된 것을 확인할 수 있다. 기존에 R을 학습한 사람들은 tbl & data.frame에 대해서 한두번쯤 들었을 거라 생각한다.

Ch01 Process Analysis Intro

I. Process Mining Intro 모든 비즈니스는 프로세스와 연관이 깊다. 이러한 데이터를 통상적으로 event라고 부르며, 다루는 데이터는 log 데이터와 연관이 깊다. 프로세스 마이닝(Process Mining)은 데이터의 추출, 프로세싱, 그리고 분석의 순으로 진행한다. 데이터 추출 (Extraction): Raw Data를 Event Data로 변환시킨다. 프로세싱 (Processing): 데이터 가공과 비슷하며, 보통 Aggregation, Filtering, Enrichment의 용어가 등장한다. 분석 (Analysis): Performance, Control-Flow 등과 연관된 분석이 진행된다. 우선 빠르게 시각화부터 진행해보자. library(bupaR) library(httr) library(processmapR) library(edeaR) url <- 'https://github.com/chloevan/datasets/blob/master/log/log_eat_patterns.RDS?raw=true' patterns <- readRDS(url(url)) trace_explorer(patients, coverage=1) 위 그래프에 대한 해석은 나중에 하더라도, 위 데이터를 보면, Rgst아 TraA는 공통으로 존재하고, 경로에 따라서 X-Ray, Blood Test에 나뉘는 걸 봐서는 환자의 경로에 관한 데이터임을 알 수 있다.