Programmings

Ch14 Cross Join

I. 구글 클라우드 설정

본격적인 빅쿼리 실습에 앞서서, Python과 연동하는 예제를 준비하였다. 빅쿼리 시작에 앞서서 선행적으로 클라우드 사용을 해야 한다.

  1. 만약 GCP 프로젝트가 없다면, 계정을 연동한다. Go to Cloud Resource Manager
  2. 그리고, 비용결제를 위한 카드를 등록한다. Enable billing
  3. 마지막으로 BigQuery API를 사용해야 하기 때문에 빅쿼리 API 사용허가를 내준다.Enable BigQuery

위 API를 이용하지 않으면 Python 또는 R과 연동해서 사용할 수는 없다. 자주 쓰는것이 아니라면 비용은 거의 발생하지 않으니 염려하지 않아도 된다. 비용관리에 대한 자세한 내용은 BigQuery 권장사항: 비용 관리에서 확인하기를 바란다.

Python - NumPy 소개 및 다양한 객체 생성

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. 개요

  • NumPy는 C언어로 구성되었으며, 고성능의 수치계산을 위해 나온 패키지이며, Numerical Python의 약자이다.
  • Python을 활용한 데이터 분석을 수행할 때, 그리고 데이터 시각화나 전처리를 수행할 때, NumPy는 매우 자주 사용되기 때문에 한번쯤은 꼭 다듬고 가는 것이 중요하다.
  • 독자의 가독성을 위해 두번에 걸쳐 나눠서 연재하려고 한다.

II. 모듈 Import

import numpy as np
print(np.__version__)
1.18.4

III. 배열 생성

  • NumPy를 활용하여 Array(배열)을 만들어 본다.
  • 먼저 1차원 배열을 생성한다.
# Defining 1D array
array_1D = np.array([1,8,27,64])
print(array_1D)
[ 1  8 27 64]
  • 이번에는 2차원 배열을 생성한다.
array_2D = np.array([[1,2,3,4], [2,4,9,16], [4,8,18,32]])
print(array_2D)
[[ 1  2  3  4]
 [ 2  4  9 16]
 [ 4  8 18 32]]
  • 이번에는 3차원 배열을 생성한다.
array_3D = np.array([[[1,2,3,4],[5,6,7,8]],[[1,2,3,4],[9,10,11,12]]])
print(array_3D)
[[[ 1  2  3  4]
  [ 5  6  7  8]]

 [[ 1  2  3  4]
  [ 9 10 11 12]]]

IV. 배열에 대한 정보 확인

  • 배열의 정보를 확인하는 다양한 함수가 존재한다.
  • 현재 저장된 배열에 대해 RAM의 주소를 확인할 수 있다.
print(array_2D.data)
<memory at 0x7f1348684ea0>
  • 배열의 구조를 확인할 수 있다.
print(array_2D.shape)
(3, 4)
  • 배열의 데이터 타입을 확인할 수 있다.
print(array_2D.dtype)
int64
  • 배열의 간격 및 각 요소간의 간격에 대해서도 확인이 가능하다.

V. NumPy를 활용한 다양한 객체 생성

  • NumPy 패키지내의 함수를 활용하여 다양한 방식으로 패키지를 작성해보자.
# Array of 1
import numpy as np
ones = np.ones((3,4)) # 행, 열
print(ones)
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
# Array of 0
zeros = np.zeros((2,3,5), dtype=np.int16) # 3차원의 개수, 2차원의 개수, 1차원의 개수
print(zeros)
[[[0 0 0 0 0]
  [0 0 0 0 0]
  [0 0 0 0 0]]

 [[0 0 0 0 0]
  [0 0 0 0 0]
  [0 0 0 0 0]]]
# Array with 랜덤값
np.random.random((2,2)) # 2차원의 개수, 1차원의 개수
array([[0.25327514, 0.82196535],
       [0.77309235, 0.84250901]])
# Empty 배열
emptyArray = np.empty((3,2))
print(emptyArray)
[[0. 0.]
 [0. 0.]
 [0. 0.]]
# Full Array
fullArray = np.full((2,2), 7)
print(fullArray)
[[7 7]
 [7 7]]
# Array of Evenly-Spaced Values (1차원 배열)
evenSpacedArray = np.arange(10,50,5)
print(evenSpacedArray)
[10 15 20 25 30 35 40 45]
  • arange 특정한 규칙에 따라 증가하는 수열을 생성한다.
  • 위 예제에서는 5만큼 증가하는 수열을 만들었다.
evenSpacedArray2 = np.linspace(0,2,9)
print(evenSpacedArray2)
[0.   0.25 0.5  0.75 1.   1.25 1.5  1.75 2.  ]
evenSpacedArray3 = np.logspace(0,2,9)
print(evenSpacedArray3)
[  1.           1.77827941   3.16227766   5.62341325  10.
  17.7827941   31.6227766   56.23413252 100.        ]
  • linspace & logspace 명령은 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할한다.

VI. What’s Next

지금까지는 NumPy를 활용한 객체 생성에 대해 짧게 익혔다. 그러나, NumPy의 가장 중요한 것은 각각의 배열간의 연산이며, 이러한 연산기법에 대한 이해가 있어야 향후에 배우게 될 머신러닝 & 딥러닝에 대한 이해를 하는데 도움이 될 수 있기 때문에, 꼭 다음 포스트를 읽어두는 것을 추천한다.

ch04 - Modeling Visualisation

개요

A picture is worth a thousand words — English Language Adage

The simple graph has brought more information to the data analyst’s mind than any other device. — John Tukey

한장의 그림이 수천단어보다 가치가 있다는 영어속담과, 명료한 시각화가 데이터분석가에게 다른 어떤 도구보다 더 많은 정보를 제공한다는 유명한 데이터 과학자의 조언. 핵심은 시각화이다.

본 장에서는 ggplot2 패키지를 활용한 시각화를 먼저 보여줄 것이다. 먼저 간단하게 ggplot2 패키지에 소개하자면 Grammar of Graphics1의 철학을 담아서 R 생태계에서 유명한 학자 중, Hadley Wickham에 의해 주도적으로 개발되었다. 그래프에도 문법이 있다는 패키지의 철학 아래, R의 시각화는 괄목할만한 발전을 이루었고 이는 R의 대중화에도 큰 영향을 끼쳤다.

Python - Pandas 병렬처리

강의 홍보

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

지난 포스트에서는 lambda의 기본적인 개념에 대해서 익혔다면, 이제 본격적인 데이터 전처리와 관련된 예제를 올리려고 한다.

Python - Lambda and List Comprehension

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

I. 개요

Python을 활용한 데이터전처리를 수행할 때, Lambda and List Comprehension 활용하면 매우 handy한 경험을 할 수 있다. 특히, 코드 수행 시, for-loop가 많을 때 유용하다.

II. Lambda Expression

우선 Lambda의 표현 방법은 아래와 같다.

lambda 인자 : 표현식

어떻게 사용할 수 있을까요? 우선, temp_sum이라는 함수를 만들어 본다.

Python Basic Syntax - list(1)

공지

제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.

본 포스트에서는 짧게 list를 만드는 법과, 값을 추가하는 것에 대해 작성합니다.

I. list 개요

list는 순서는 순서가 있는 집합이며, [] 형태를 가집니다. list는 (integer, float, string, etc) 등으로 구성되는데, 서로 다른 데이터 값이 들어올 수도 있다. 아래 코드를 보자.

# empty list
my_list = []

# 숫자형 list
num_list = [1, 2, 3]

# 문자형 list
chr_list = ['A', 'B', 'C']

리스트는 또다른 리스트를 포함할 수 도 있다. 이것을 A nested list라고 부른다.

How To Make a Portpolio (2)

들어가면서..

본격적으로 강의를 시작하면서, 수강생들에게 도움이 되는 글을 작성하고 싶었다. 아쉽지만, 본 포스팅에서 코딩과 관련된 글을 제공되지 않는다. 다만, 필자 역시 블로그를 시작하면서 하나의 포트폴리오를 만들어가는 것처럼, 부족한 나의 강의를 듣는 사람들에게도 도움이 될만한 글을 제공하고 싶었다.

원문: How to Build a Data Science Portfolio

원문을 번역하지만, 기타 필자의 개인적인 의견도 섞어서 개진하였음을 밝힌다.

데이터 과학분야에 어떻게 취직을 할 수 있을까? 신입의 입장에서, 통계, 기계학습, 프로그래밍, IT 기술, 클라우드 전반에 대해 모두 아는 것은 어렵다. 또한, 취업에 필요한 포트폴리오는 어떻게 만들어야 할지 취준생 입장에서는 이 또한 난감하다. 대학교에서, 직업훈련기관에서, 또는 독학으로. 열심히 공부해 왔다고 해도, 역시 포트폴리오를 만들어가는 것은 쉽지 않다. 그러나, 포트폴리오는 매우 중요하며, 포트폴리오가 있음으로 얻는 이점은 무궁무진하다. 그런데, 인사담당자 & 현업(사수가 될 사람)과의 미팅에서 눈을 사로잡으려면 포트폴리오는 강력한 무기가 될 수 있다.

Tensorflow 2.0 Tutorial ch9.5 - 이미지 분할

공지

  • 본 Tutorial은 교재 시작하세요 텐서플로 2.0 프로그래밍의 강사에게 국비교육 강의를 듣는 사람들에게 자료 제공을 목적으로 제작하였습니다.

  • 강사의 주관적인 판단으로 압축해서 자료를 정리하였기 때문에, 자세하게 공부를 하고 싶으신 분은 반드시 교재를 구매하실 것을 권해드립니다.

  • 본 교재 외에 강사가 추가한 내용에 대한 Reference를 확인하셔서, 추가적으로 학습하시는 것을 권유드립니다.

Tutorial

이전 강의가 궁금하신 분들은 아래에서 선택하여 추가 학습 하시기를 바랍니다.

I. 개요

  • 이미지에서 단순히 경계선을 추출하는 작업은 전통적인 알고리즘의 필터나 한 층의 컨볼루션 레이어로도 가능하지만, 의미 있는 부분과 그렇지 않은 부분으로 분할하기 위해서는 학습이 필요합니다.
  • 앞 절에서 정의한 REDNet을 조금만 수정하면 이미지 분할(Segmentation)에서 사용할 수 있습니다.
  • 이미지의 경계선과 내용, 그리고 외곽의 3가지로 분류하는 Oxford-IIIT Pet 데이터세트로 이미지 분할 문제를 학습합니다.
  • 교재에 있는 코드에서 몇몇 에러가 발생하였습니다. 내용상 텐서플로 홈페이지와 유사하여 텐서플로 공식 홈페이지에 있는 소스코드를 참고하였습니다.
  • 먼저 필수 파일들을 pip 도구를 활용하여 설치합니다.
!pip install git+https://github.com/tensorflow/examples.git
!pip install -U tfds-nightly
Collecting git+https://github.com/tensorflow/examples.git
  Cloning https://github.com/tensorflow/examples.git to /tmp/pip-req-build-36g0gu68
  Running command git clone -q https://github.com/tensorflow/examples.git /tmp/pip-req-build-36g0gu68
Requirement already satisfied: absl-py in /usr/local/lib/python3.6/dist-packages (from tensorflow-examples===63ee35adcc3e3dd2d228bc3283e27f6a1e2158ab-) (0.9.0)
Requirement already satisfied: six in /usr/local/lib/python3.6/dist-packages (from tensorflow-examples===63ee35adcc3e3dd2d228bc3283e27f6a1e2158ab-) (1.12.0)
Building wheels for collected packages: tensorflow-examples
  Building wheel for tensorflow-examples (setup.py) ... [?25l[?25hdone
  Created wheel for tensorflow-examples: filename=tensorflow_examples-63ee35adcc3e3dd2d228bc3283e27f6a1e2158ab_-cp36-none-any.whl size=125226 sha256=f2f0d0a9e57edde6593979e55a26983574dba25b3f7008be261173181109f5b8
  Stored in directory: /tmp/pip-ephem-wheel-cache-f32yqfdy/wheels/83/64/b3/4cfa02dc6f9d16bf7257892c6a7ec602cd7e0ff6ec4d7d714d
Successfully built tensorflow-examples
Installing collected packages: tensorflow-examples
Successfully installed tensorflow-examples-63ee35adcc3e3dd2d228bc3283e27f6a1e2158ab-
Collecting tfds-nightly
[?25l  Downloading https://files.pythonhosted.org/packages/8c/42/df5f05f2124f9d1b6e16b88c518f04a7d282d77daf3113ba548baadc4ce5/tfds_nightly-3.1.0.dev202005100106-py3-none-any.whl (3.3MB)
     |████████████████████████████████| 3.3MB 11.6MB/s 
[?25hRequirement already satisfied, skipping upgrade: wrapt in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (1.12.1)
Requirement already satisfied, skipping upgrade: requests>=2.19.0 in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (2.23.0)
Requirement already satisfied, skipping upgrade: tqdm in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (4.41.1)
Requirement already satisfied, skipping upgrade: attrs>=18.1.0 in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (19.3.0)
Requirement already satisfied, skipping upgrade: future in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (0.16.0)
Requirement already satisfied, skipping upgrade: absl-py in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (0.9.0)
Requirement already satisfied, skipping upgrade: dill in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (0.3.1.1)
Requirement already satisfied, skipping upgrade: promise in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (2.3)
Collecting tensorflow-metadata<0.16,>=0.15
  Downloading https://files.pythonhosted.org/packages/3b/0c/afb81ea6998f6e26521671585d1cd9d3f7945a8b9834764e91757453dc25/tensorflow_metadata-0.15.2-py2.py3-none-any.whl
Requirement already satisfied, skipping upgrade: six in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (1.12.0)
Requirement already satisfied, skipping upgrade: protobuf>=3.6.1 in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (3.10.0)
Requirement already satisfied, skipping upgrade: numpy in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (1.18.4)
Requirement already satisfied, skipping upgrade: termcolor in /usr/local/lib/python3.6/dist-packages (from tfds-nightly) (1.1.0)
Requirement already satisfied, skipping upgrade: chardet<4,>=3.0.2 in /usr/local/lib/python3.6/dist-packages (from requests>=2.19.0->tfds-nightly) (3.0.4)
Requirement already satisfied, skipping upgrade: certifi>=2017.4.17 in /usr/local/lib/python3.6/dist-packages (from requests>=2.19.0->tfds-nightly) (2020.4.5.1)
Requirement already satisfied, skipping upgrade: idna<3,>=2.5 in /usr/local/lib/python3.6/dist-packages (from requests>=2.19.0->tfds-nightly) (2.9)
Requirement already satisfied, skipping upgrade: urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 in /usr/local/lib/python3.6/dist-packages (from requests>=2.19.0->tfds-nightly) (1.24.3)
Requirement already satisfied, skipping upgrade: googleapis-common-protos in /usr/local/lib/python3.6/dist-packages (from tensorflow-metadata<0.16,>=0.15->tfds-nightly) (1.51.0)
Requirement already satisfied, skipping upgrade: setuptools in /usr/local/lib/python3.6/dist-packages (from protobuf>=3.6.1->tfds-nightly) (46.1.3)
Installing collected packages: tensorflow-metadata, tfds-nightly
  Found existing installation: tensorflow-metadata 0.21.2
    Uninstalling tensorflow-metadata-0.21.2:
      Successfully uninstalled tensorflow-metadata-0.21.2
Successfully installed tensorflow-metadata-0.15.2 tfds-nightly-3.1.0.dev202005100106

II. REDNet[^1]

  • REDNetResidual Encoder-Decoder Network의 약자이며, ResidualResNet등에서 사용하는 건너뛴 연결(skip-connection)입니다.
  • 다수의 레이어가 중첩되는 구조에서 앞쪽의 정보를 잃어버리기 않기 위해 뒤쪽에 정보를 그대로 전달해줄 때 건너뛴 연결이 사용됩니다.
import tensorflow as tf
from tensorflow_examples.models.pix2pix import pix2pix

import tensorflow_datasets as tfds
tfds.disable_progress_bar()

from IPython.display import clear_output
import matplotlib.pyplot as plt

III. 데이터 불러오기

  • tf.keras.utils.get_file() 데이터를 불러옵니다.
  • 교재에서는 oxford_iiit_pet:3.0.0으로 되어 있었는데, 버전을 3.*.*으로 수정하여 다운로드를 하기를 바랍니다.
dataset, info = tfds.load('oxford_iiit_pet:3.*.*', with_info=True)
Downloading and preparing dataset oxford_iiit_pet/3.2.0 (download: 773.52 MiB, generated: 774.69 MiB, total: 1.51 GiB) to /root/tensorflow_datasets/oxford_iiit_pet/3.2.0...
Shuffling and writing examples to /root/tensorflow_datasets/oxford_iiit_pet/3.2.0.incompleteONHCBY/oxford_iiit_pet-train.tfrecord
Shuffling and writing examples to /root/tensorflow_datasets/oxford_iiit_pet/3.2.0.incompleteONHCBY/oxford_iiit_pet-test.tfrecord
Dataset oxford_iiit_pet downloaded and prepared to /root/tensorflow_datasets/oxford_iiit_pet/3.2.0. Subsequent calls will reuse this data.
info
tfds.core.DatasetInfo(
    name='oxford_iiit_pet',
    version=3.2.0,
    description='The Oxford-IIIT pet dataset is a 37 category pet image dataset with roughly 200
images for each class. The images have large variations in scale, pose and
lighting. All images have an associated ground truth annotation of breed.',
    homepage='http://www.robots.ox.ac.uk/~vgg/data/pets/',
    features=FeaturesDict({
        'file_name': Text(shape=(), dtype=tf.string),
        'image': Image(shape=(None, None, 3), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=37),
        'segmentation_mask': Image(shape=(None, None, 1), dtype=tf.uint8),
        'species': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    }),
    total_num_examples=7349,
    splits={
        'test': 3669,
        'train': 3680,
    },
    supervised_keys=('image', 'label'),
    citation="""@InProceedings{parkhi12a,
      author       = "Parkhi, O. M. and Vedaldi, A. and Zisserman, A. and Jawahar, C.~V.",
      title        = "Cats and Dogs",
      booktitle    = "IEEE Conference on Computer Vision and Pattern Recognition",
      year         = "2012",
    }""",
    redistribution_info=,
)

Dataset의 주요 정보를 구성하고 있는 부분은 features입니다. 여기에는 image, label, segmentation_mask가 보입니다.

How To Make a Portpolio (1)

들어가면서..

본격적으로 강의를 시작하면서, 수강생들에게 도움이 되는 글을 작성하고 싶었다. 아쉽지만, 본 포스팅에서 코딩과 관련된 글을 제공되지 않는다. 다만, 필자 역시 블로그를 시작하면서 하나의 포트폴리오를 만들어가는 것처럼, 부족한 나의 강의를 듣는 사람들에게도 도움이 될만한 글을 제공하고 싶었다.

원문: How to Build a Data Science Portfolio

원문을 번역하지만, 기타 필자의 개인적인 의견도 섞어서 개진하였음을 밝힌다.

데이터 과학분야에 어떻게 취직을 할 수 있을까? 신입의 입장에서, 통계, 기계학습, 프로그래밍, IT 기술, 클라우드 전반에 대해 모두 아는 것은 어렵다. 또한, 취업에 필요한 포트폴리오는 어떻게 만들어야 할지 취준생 입장에서는 이 또한 난감하다. 대학교에서, 직업훈련기관에서, 또는 독학으로. 열심히 공부해 왔다고 해도, 역시 포트폴리오를 만들어가는 것은 쉽지 않다. 그러나, 포트폴리오는 매우 중요하며, 포트폴리오가 있음으로 얻는 이점은 무궁무진하다. 그런데, 인사담당자 & 현업(사수가 될 사람)과의 미팅에서 눈을 사로잡으려면 포트폴리오는 강력한 무기가 될 수 있다.

Shiny App Deployment Using GCP

I. 개요

Google Data Studio는 놀랍도록 유연한 도구로서 마케팅 대행사 중 Google Analytics를 활용한 업체들은 대부분 항상 사용합니다. 때로는 유연성이 더 필요할 때 R ’s Shiny 패키지를 사용하여 데이터 시각화 / 대시 보드 앱을 만드는 것이 매우 쉽습니다. 이 옵션을 사용하면 모든 소스의 데이터를 예측 모델링과 함께 사용할 수 있는 장점이 있습니다.

이 블로그 게시물은 3 부분으로 나누어져 있습니다.

  1. 먼저 Google Cloud Virtual Machine (VM)을 설정하고 웹 액세스를 허용하도록 방화벽 규칙을 구성합니다.
  2. R, RStudio 및 Shiny를 설치합니다.
  3. 마지막으로 우리는 Shiny 앱을 배포하려고 합니다.

II. 가상환경 설치

먼저 필자의 로컬 컴퓨터 환경은 다음과 같습니다.