EDA with Personal Email - Overview

Page content

강의 홍보

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. Matplotlib & Seaborn

(1) 기본 개요

Matplotlib는 파이썬 표준 시각화 도구라고 불리워지며 파이썬 그래프의 기본 토대가 된다고 해도 무방하다. 객체지향 프로그래밍을 지원하므로 세세하게 꾸밀 수 있다.

Seaborn 그래는 파이썬 시각화 도구의 고급 버전이다. Matplotlib에 비해 비교적 단순한 인터페이스를 제공하기 때문에 초보자도 어렵지 않게 배울 수 있다.

(2) matplotlib & Seabon 설치

설치방법은 윈도우 명령 프롬프트, MacOS, Linux 터미널에서 pip install matplotlib입력하면 되지만, 간혹 여러 환경에 따라 달라질 수 있으니 관련 싸이트에서 확인하기를 바란다.

II. Overview

  • 데이터 집합에서 유용한 통찰력을 탐구하려면 많은 생각과 높은 수준의 경험과 연습이 필요하다.
  • 여러 유형의 데이터셋을 처리할수록 채굴할 수 있는 통찰력의 유형을 이해하는 데 더 많은 경험을 얻을 수 있다.
  • 이 장에서는 자체 이메일 데이터셋 중 하나를 사용하여 탐색적 데이터 분석(EDA)을 수행하려고 한다.
  • 모든 이메일을 데이터 집합으로 내보내는 방법, 팬더 데이터 프레임 내에서 가져오는 방법, 시각화하는 방법, 얻을 수 있는 다양한 유형의 통찰력에 대해 배우게 된다.
  • 특히, 개인별 G-Mail 데이터를 수집하는 방법에 대해서 배워서 적용하는 것을 연습한다.
    • 데이터 수집
    • 데이터 가공
    • 데이터 분석

III. Technical Requirements

  • 본 데이터셋은 개인 Gmail 계정에서 가져온 이메일 데이터를 활용한다.
  • 개인 정보 보호 문제로 인해 데이터셋은 공유가 되지 않기에 데이터를 다룰 때 조심하시기를 바라며, 또한 관련 데이터 중 민감한 데이터를 직접 처리하는 것을 추천한다.
  • 이 장에서는 Gmail에서 직접 이메일을 다운로드하여 초기 데이터 분석을 수행하는 방법을 안내한다.

(1) 데이터 수집 절차

  • 다만, 하단에서 Mail만 클릭한다. 그리고 스크롤바를 더 내려서 Next Step을 클릭한다.
    • 이 때 구글 드라이브로 데이터를 받는 것으로 진행한다
    • 나머지는 모두 default값으로 남겨둔다. 일회성 아카이브, .zip 및 최대 허용 크기를 선택한다. 이 다음에 아카이브 생성을 누른다.

  • (2020년 5월 기준) 이메일로 즉시, 아래와 같은 문구를 받게 될 것이다.

You’re getting this email because there’s been a request to create an archive of your Google data. If you didn’t make this request, someone may be trying to access your Google account. Check recent activity in your account and take steps to secure it. Requests can be scheduled in advance.

  • 요청 사항에 따라서 시간이 걸린다고 아래와 같이 명시하고 있다.

Google is creating a copy of files from Mail This process can take a long time (possibly hours or days) to complete. You’ll receive an email when your export is done.

  • 그런데, 생각보다 오래 걸리지는 않는다. 다운로드가 완료가 되면 구글드라이브에서 확인할 수 있다. zip파일을 해제 한 후 .mbox 확장자로 구글드라이브에 저장시킨다. (보통 용량이 크기 때문에 zip파일과 mbox를 같이 저장할 필요는 없다.)

IV. Reference

Mukhiya, Uuresh Kumar. Ahmed Usman. Hands-on Exploratory Data Analysis With Python: Perform EDA Techniques to understand, Summarize, and Investigate Your Data. Packt publishing limited, 2020.