EDA with Personal Email - Overview
강의 홍보
- 취준생을 위한 강의를 제작하였습니다.
- 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다.
스타벅스 아이스 아메리카노를 선물
로 보내드리겠습니다.
- [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기
공지
제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.
I. Matplotlib & Seaborn
(1) 기본 개요
Matplotlib
는 파이썬 표준 시각화 도구라고 불리워지며 파이썬 그래프의 기본 토대가 된다고 해도 무방하다. 객체지향 프로그래밍을 지원하므로 세세하게 꾸밀 수 있다.
Seaborn
그래는 파이썬 시각화 도구의 고급 버전이다. Matplotlib
에 비해 비교적 단순한 인터페이스를 제공하기 때문에 초보자도 어렵지 않게 배울 수 있다.
(2) matplotlib & Seabon 설치
설치방법은 윈도우 명령 프롬프트, MacOS, Linux 터미널에서 pip install matplotlib
입력하면 되지만, 간혹 여러 환경에 따라 달라질 수 있으니 관련 싸이트에서 확인하기를 바란다.
- matplotlib 설치 방법: https://matplotlib.org/users/installing.html
- seaborn 설치 방법: https://seaborn.pydata.org/installing.html
II. Overview
- 데이터 집합에서 유용한 통찰력을 탐구하려면 많은 생각과 높은 수준의 경험과 연습이 필요하다.
- 여러 유형의 데이터셋을 처리할수록 채굴할 수 있는 통찰력의 유형을 이해하는 데 더 많은 경험을 얻을 수 있다.
- 이 장에서는 자체 이메일 데이터셋 중 하나를 사용하여 탐색적 데이터 분석(EDA)을 수행하려고 한다.
- 모든 이메일을 데이터 집합으로 내보내는 방법, 팬더 데이터 프레임 내에서 가져오는 방법, 시각화하는 방법, 얻을 수 있는 다양한 유형의 통찰력에 대해 배우게 된다.
- 특히, 개인별 G-Mail 데이터를 수집하는 방법에 대해서 배워서 적용하는 것을 연습한다.
- 데이터 수집
- 데이터 가공
- 데이터 분석
III. Technical Requirements
- 본 데이터셋은 개인 Gmail 계정에서 가져온 이메일 데이터를 활용한다.
- 개인 정보 보호 문제로 인해 데이터셋은 공유가 되지 않기에 데이터를 다룰 때 조심하시기를 바라며, 또한 관련 데이터 중 민감한 데이터를 직접 처리하는 것을 추천한다.
- 이 장에서는
Gmail
에서 직접 이메일을 다운로드하여 초기 데이터 분석을 수행하는 방법을 안내한다.
(1) 데이터 수집 절차
- 먼저 개인의
G-Mail
계정에 접속한다. - 그리고, 다음 링크를 클릭한다. https://takeout.google.com/settings/takeout
Deselect all
을 우선 클릭하여 모든 체크박스를 해제한다.
- 다만, 하단에서
Mail
만 클릭한다. 그리고 스크롤바를 더 내려서Next Step
을 클릭한다.- 이 때 구글 드라이브로 데이터를 받는 것으로 진행한다
- 나머지는 모두
default
값으로 남겨둔다. 일회성 아카이브, .zip 및 최대 허용 크기를 선택한다. 이 다음에 아카이브 생성을 누른다.
- (2020년 5월 기준) 이메일로 즉시, 아래와 같은 문구를 받게 될 것이다.
You’re getting this email because there’s been a request to create an archive of your Google data. If you didn’t make this request, someone may be trying to access your Google account. Check recent activity in your account and take steps to secure it. Requests can be scheduled in advance.
- 요청 사항에 따라서 시간이 걸린다고 아래와 같이 명시하고 있다.
Google is creating a copy of files from Mail This process can
take a long time (possibly hours or days)
to complete. You’ll receive an email when your export is done.
- 그런데, 생각보다 오래 걸리지는 않는다. 다운로드가 완료가 되면 구글드라이브에서 확인할 수 있다.
zip
파일을 해제 한 후.mbox
확장자로 구글드라이브에 저장시킨다. (보통 용량이 크기 때문에zip
파일과mbox
를 같이 저장할 필요는 없다.)
IV. Reference
Mukhiya, Uuresh Kumar. Ahmed Usman. Hands-on Exploratory Data Analysis With Python: Perform EDA Techniques to understand, Summarize, and Investigate Your Data. Packt publishing limited, 2020.