Python

Google Colab Intro

강의 홍보

I. 들어가며

  • 빅데이터 시대에 맞춰서 다양한 툴이 나오는 가운데, Google Colab은 가히 혁명적이라 할 수 있다.
  • 과거 높은 사양의 컴퓨터에서만 수행할 수 있었던 머신러닝과 딥러닝을 구글 코랩의 환경에서 무료로 배울 수 있는 기회를 구글이 제공하기 시작했다.
  • 간단하게 아래 소스코드를 실행하여 CPU와 GPU의 연산속도를 비교 해보자.

II. Data Transformation 예제

  • 이제 간단하게 데이터 가공의 예를 실습해보자.

(1) 딕셔너리에서 시리즈로 변환하기

  • 다음의 소스코드를 실행하여 딕셔너리에서 시리즈로 변환하는 것을 실습해보자.
# pandas 불러오기
import pandas as pd

# key:value 형태로 딕셔너리를 만들고 temp_dic으로 저장
temp_dic = {'evan': 30, 'chloe': 27}
print(temp_dic)
{'evan': 30, 'chloe': 27}
# 시리즈로 변환하고 출력값 확인
data = pd.Series(temp_dic)
print(data)
evan     30
chloe    27
dtype: int64
  • 위 출력값에서 인덱스는 evanchloe이다.

(2) 리스트에서 시리즈로 변환하기

  • 이번에는 리스트에서 시리즈로 변환한다. 이 때 출력값의 인덱스가 어떻게 나타나는지 확인해본다.
import pandas as pd
temp_list = ['2020-05-29', 1.11, '가나다', 'ABC', 100, True]
data = pd.Series(temp_list)
print(data)
0    2020-05-29
1          1.11
2           가나다
3           ABC
4           100
5          True
dtype: object
  • 이번에는 인덱스의 값이 자동으로 0부터 시작하는 것을 알 수 있다.

III. Data Visualisation 예제

  • 이번에는 간단하게 시각화를 작성해본다.
import numpy as np
import matplotlib.pyplot as plt

N = 5
menMeans = (20, 35, 30, 35, 27)
womenMeans = (25, 32, 34, 20, 25)
menStd = (2, 3, 4, 1, 2)
womenStd = (3, 5, 2, 3, 3)
ind = np.arange(N)    # the x locations for the groups
width = 0.35       # the width of the bars: can also be len(x) sequence

p1 = plt.bar(ind, menMeans, width, yerr=menStd)
p2 = plt.bar(ind, womenMeans, width,
             bottom=menMeans, yerr=womenStd)

plt.ylabel('Scores')
plt.title('Scores by group and gender')
plt.xticks(ind, ('G1', 'G2', 'G3', 'G4', 'G5'))
plt.yticks(np.arange(0, 81, 10))
plt.legend((p1[0], p2[0]), ('Men', 'Women'))

plt.show()

png

Data Transformation - Merging Data

강의 홍보

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

  • 데이터는 코로나 데이터를 활용했다.

I. Data Transform Overview

  • 데이터 변환은 데이터를 하나의 형식이나 구조에서 다른 형식이나 구조로 변환하는 데 사용되는 기법이다.

matplotlib - 09 lollipop

강의 홍보

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. Matplotlib & Seaborn

(1) 기본 개요

Matplotlib는 파이썬 표준 시각화 도구라고 불리워지며 파이썬 그래프의 기본 토대가 된다고 해도 무방하다. 객체지향 프로그래밍을 지원하므로 세세하게 꾸밀 수 있다.

Kakao Arena 3 EDA on Google Colab

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

이전 포스트인 Colab + Drive + Github Workflow 실전 테스트용으로 생각하면서 읽어주기를 바란다.

I. 개요

  • 프로젝트 폴더 내에서 간단하게 EDA를 실습하는 시간을 갖도록 한다.
  • 관련 패키지는 우선 다른 곳에서 설치 되었다는 것을 가정한다.
  • 본 포스트의 핵심은 환경설정이 Google Colab + Drive내에서 작업하는 것이다.

II. 패키지 불러오기

  • 다음과 같은 순서로 실행한다.
  • 첫째, 나눔고딕 한글 폰트를 설치한다.
  • 둘째, 내부 패키지를 먼저 불러온다.
  • 셋째, 런타임을 다시 실행한다.
  • 넷째, Drive 마운트를 진행한다.
  • 다섯째, 외부 패키지를 불러온다.

(1) 나눔고딕 폰트 불러오기

  • 다음과 같은 방식으로 폰트를 불러온다.
%config InlineBackend.figure_format = 'retina'
!sudo apt-get -qq -y install fonts-nanum
The following NEW packages will be installed:
  fonts-nanum
0 upgraded, 1 newly installed, 0 to remove and 31 not upgraded.
Need to get 9,604 kB of archives.
After this operation, 29.5 MB of additional disk space will be used.
Selecting previously unselected package fonts-nanum.
(Reading database ... 144433 files and directories currently installed.)
Preparing to unpack .../fonts-nanum_20170925-1_all.deb ...
Unpacking fonts-nanum (20170925-1) ...
Setting up fonts-nanum (20170925-1) ...
Processing triggers for fontconfig (2.12.6-0ubuntu2) ...

(2) 내부에 기 설치된 패키지 불러오기

  • 관련 패키지를 불러온다.
from datetime import timedelta, datetime
import glob
from itertools import chain
import json
import os
import re

import numpy as np
import pandas as pd

from wordcloud import WordCloud
import nltk
from nltk.corpus import stopwords
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer

from pandas.plotting import register_matplotlib_converters
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic') 
plt.rcParams["figure.figsize"] = (20, 10)
register_matplotlib_converters()
mpl.font_manager._rebuild()
mpl.pyplot.rc('font', family='NanumGothic')
fm._rebuild()

(3) 외부 패키지인 konlpy 불러오기

  • 다음 코드를 실행하기 전 반드시 [런타임]-[런타임 다시 시작]을 누르자.
# Mount Google Drive
from google.colab import drive # import drive from google colab

ROOT = "/content/drive"     # default location for the drive
print(ROOT)                 # print content of ROOT (Optional)
drive.mount(ROOT)           # we mount the google drive at /content/drive
/content/drive
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
import os, sys
my_path = '/content/notebooks'
os.symlink('/content/drive/My Drive/Colab Notebooks/competition/pkgs_folder', my_path)
sys.path.insert(0,my_path)
from konlpy.tag import Twitter
  • 위 코드에서 만약 에러가 나면 처음부터 다시 해야 하니, 유의 바란다.
pd.options.mode.chained_assignment = None

III. 데이터 불러오기

  • 이제 깃허브 프로젝트인 competition으로 파일 경로를 변경 한 뒤, 데이터를 불러오도록 한다.
# import join used to join ROOT path and MY_GOOGLE_DRIVE_PATH
from os.path import join  

# path to your project on Google Drive
MY_GOOGLE_DRIVE_PATH = 'My Drive/Colab Notebooks/competition'

PROJECT_PATH = join(ROOT, MY_GOOGLE_DRIVE_PATH)
%cd "{PROJECT_PATH}"
/content/drive/My Drive/Colab Notebooks/competition
!git status
On branch master
Your branch is up to date with 'origin/master'.

Changes not staged for commit:
  (use "git add/rm <file>..." to update what will be committed)
  (use "git checkout -- <file>..." to discard changes in working directory)

	modified:   .gitignore
	deleted:    kakao_arena_3/source/temp.ipynb
	deleted:    kakao_arena_3/source/temp2.ipynb

Untracked files:
  (use "git add <file>..." to include in what will be committed)

	kakao_arena_3/source/kakao_arena_3_eda.ipynb

no changes added to commit (use "git add" and/or "git commit -a")
!ls
kakao_arena_3  pkgs_folder  README.md
# genre_gn_all.json
genre_gn_all = pd.read_json('kakao_arena_3/data/genre_gn_all.json', typ = 'series')
# 장르코드 : gnr_code, 장르명 : gnr_name
genre_gn_all = pd.DataFrame(genre_gn_all, columns = ['gnr_name']).reset_index().rename(columns = {'index' : 'gnr_code'})
print(genre_gn_all.head())
  gnr_code gnr_name
0   GN0100      발라드
1   GN0101   세부장르전체
2   GN0102      '80
3   GN0103      '90
4   GN0104      '00
# 장르코드 뒷자리 두 자리가 00이 아닌 코드를 필터링
dtl_gnr_code = genre_gn_all[genre_gn_all['gnr_code'].str[-2:] != '00']
dtl_gnr_code.rename(columns = {'gnr_code' : 'dtl_gnr_code', 'gnr_name' : 'dtl_gnr_name'}, inplace = True)
print(dtl_gnr_code.head())
  dtl_gnr_code dtl_gnr_name
1       GN0101       세부장르전체
2       GN0102          '80
3       GN0103          '90
4       GN0104          '00
5       GN0105         '10-

IV. 데이터 시각화 구현

  • 한글 시각화를 구현한다.
# Plotting a bar graph of the number of stores in each city, for the first ten cities listed
# in the column 'City'
dtl_gnr_name_count  = dtl_gnr_code['dtl_gnr_name'].value_counts()
dtl_gnr_name_count = dtl_gnr_name_count[:10,]
plt.figure(figsize=(10,5))
sns.barplot(dtl_gnr_name_count.index, dtl_gnr_name_count.values, alpha=0.8)
plt.title('한글 시각화 테스트')
plt.ylabel('Number of Occurrences', fontsize=12)
plt.xlabel('세부장르', fontsize=12)
plt.show()

png

Colab + Drive + Github Workflow

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. 동기 부여 및 개요

  • Google Colab을 알게 된 이후에, 모든 파일을 가급적 여기에서 작성을 한다.

  • Why?

    • 첫째, GPU를 무료로 사용할 수 있다.
    • 둘째, 맥북에어의 저용량을 쓰는 나에게 있어, 시스템 파일 등을 Local로 내려받는데 버거움이 있다.
    • 셋째, 온라인 강의 및 책을 협업해서 써야 하는데, 각 Local 환경을 구축하는 번거로움을 없애고 싶었다.
    • 마지막으로, 파일 공유가 가능하다.
  • 문제는 Google Colab + Drive + Github로 연동하여 소스파일을 관리해야 하는 시점이 도래했다.

Python Package Settings on Google Colab

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. 개요

  • 교육상, 최근 kaggle 및 국내 경진 대회에 참여할 일이 생겼다.
  • 실습을 해보니, 매번 패키지와 파일을 다운로드 받는 것이 많이 불편했다.
    • 파일을 열 때마다, !pip install name_of_package을 실행해야 하는 번거로움이 있다.
  • 이러한 해결책으로 파이썬 패키지를 Google Colab에 영구적(Permantly)으로 설치하는 것을 실습한다.

competition - M5 EDA

강의 홍보

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. 개요

  • Kaggle에서 데이터를 다운로드 하는 방법에 대해서는 생략한다.
  • 본 포스트는 Google Colab을 기반으로 작성하였다.
  • Kaggle + Google Colab 데이터 연동하는 방법은 이전 포스트를 참고한다.

Kaggle with Google Colab

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. 개요

  • Kaggle 대회에서 나오는 데이터의 용량은 작은 편은 아니다.
  • 성능이 적은 노트북을 사용해야 하는 경우라면 Google Colab을 사용해야 한다.
  • 이 때, Kaggle 데이터를 Google Colab으로 다운로드 받는 과정에 대해 기술 하려고 한다.

II. 캐글 계정에서 해야 할 것

  • 먼저 본인의 계정에서 API Token을 다운로드 받는다.

matplotlib - 08 Histogram

강의 홍보

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. Matplotlib & Seaborn

(1) 기본 개요

Matplotlib는 파이썬 표준 시각화 도구라고 불리워지며 파이썬 그래프의 기본 토대가 된다고 해도 무방하다. 객체지향 프로그래밍을 지원하므로 세세하게 꾸밀 수 있다.

Python - NumPy 소개 및 다양한 객체 생성

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. 개요

  • NumPy는 C언어로 구성되었으며, 고성능의 수치계산을 위해 나온 패키지이며, Numerical Python의 약자이다.
  • Python을 활용한 데이터 분석을 수행할 때, 그리고 데이터 시각화나 전처리를 수행할 때, NumPy는 매우 자주 사용되기 때문에 한번쯤은 꼭 다듬고 가는 것이 중요하다.
  • 독자의 가독성을 위해 두번에 걸쳐 나눠서 연재하려고 한다.

II. 모듈 Import

import numpy as np
print(np.__version__)
1.18.4

III. 배열 생성

  • NumPy를 활용하여 Array(배열)을 만들어 본다.
  • 먼저 1차원 배열을 생성한다.
# Defining 1D array
array_1D = np.array([1,8,27,64])
print(array_1D)
[ 1  8 27 64]
  • 이번에는 2차원 배열을 생성한다.
array_2D = np.array([[1,2,3,4], [2,4,9,16], [4,8,18,32]])
print(array_2D)
[[ 1  2  3  4]
 [ 2  4  9 16]
 [ 4  8 18 32]]
  • 이번에는 3차원 배열을 생성한다.
array_3D = np.array([[[1,2,3,4],[5,6,7,8]],[[1,2,3,4],[9,10,11,12]]])
print(array_3D)
[[[ 1  2  3  4]
  [ 5  6  7  8]]

 [[ 1  2  3  4]
  [ 9 10 11 12]]]

IV. 배열에 대한 정보 확인

  • 배열의 정보를 확인하는 다양한 함수가 존재한다.
  • 현재 저장된 배열에 대해 RAM의 주소를 확인할 수 있다.
print(array_2D.data)
<memory at 0x7f1348684ea0>
  • 배열의 구조를 확인할 수 있다.
print(array_2D.shape)
(3, 4)
  • 배열의 데이터 타입을 확인할 수 있다.
print(array_2D.dtype)
int64
  • 배열의 간격 및 각 요소간의 간격에 대해서도 확인이 가능하다.

V. NumPy를 활용한 다양한 객체 생성

  • NumPy 패키지내의 함수를 활용하여 다양한 방식으로 패키지를 작성해보자.
# Array of 1
import numpy as np
ones = np.ones((3,4)) # 행, 열
print(ones)
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
# Array of 0
zeros = np.zeros((2,3,5), dtype=np.int16) # 3차원의 개수, 2차원의 개수, 1차원의 개수
print(zeros)
[[[0 0 0 0 0]
  [0 0 0 0 0]
  [0 0 0 0 0]]

 [[0 0 0 0 0]
  [0 0 0 0 0]
  [0 0 0 0 0]]]
# Array with 랜덤값
np.random.random((2,2)) # 2차원의 개수, 1차원의 개수
array([[0.25327514, 0.82196535],
       [0.77309235, 0.84250901]])
# Empty 배열
emptyArray = np.empty((3,2))
print(emptyArray)
[[0. 0.]
 [0. 0.]
 [0. 0.]]
# Full Array
fullArray = np.full((2,2), 7)
print(fullArray)
[[7 7]
 [7 7]]
# Array of Evenly-Spaced Values (1차원 배열)
evenSpacedArray = np.arange(10,50,5)
print(evenSpacedArray)
[10 15 20 25 30 35 40 45]
  • arange 특정한 규칙에 따라 증가하는 수열을 생성한다.
  • 위 예제에서는 5만큼 증가하는 수열을 만들었다.
evenSpacedArray2 = np.linspace(0,2,9)
print(evenSpacedArray2)
[0.   0.25 0.5  0.75 1.   1.25 1.5  1.75 2.  ]
evenSpacedArray3 = np.logspace(0,2,9)
print(evenSpacedArray3)
[  1.           1.77827941   3.16227766   5.62341325  10.
  17.7827941   31.6227766   56.23413252 100.        ]
  • linspace & logspace 명령은 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할한다.

VI. What’s Next

지금까지는 NumPy를 활용한 객체 생성에 대해 짧게 익혔다. 그러나, NumPy의 가장 중요한 것은 각각의 배열간의 연산이며, 이러한 연산기법에 대한 이해가 있어야 향후에 배우게 될 머신러닝 & 딥러닝에 대한 이해를 하는데 도움이 될 수 있기 때문에, 꼭 다음 포스트를 읽어두는 것을 추천한다.