Ch07 Arrays & Structs

2020-04-27

구글 클라우드, Google Cloud, 빅쿼리, BigQuery, Python

Page content

1. 구글 클라우드 설정

본격적인 빅쿼리 실습에 앞서서, Python과 연동하는 예제를 준비하였다. 빅쿼리 시작에 앞서서 선행적으로 클라우드 사용을 해야 한다.

만약 GCP 프로젝트가 없다면, 계정을 연동한다. Go to Cloud Resource Manager
그리고, 비용결제를 위한 카드를 등록한다. Enable billing
마지막으로 BigQuery API를 사용해야 하기 때문에 빅쿼리 API 사용허가를 내준다.Enable BigQuery

위 API를 이용하지 않으면 Python 또는 R과 연동해서 사용할 수는 없다. 자주 쓰는것이 아니라면 비용은 거의 발생하지 않으니 염려하지 않아도 된다. 비용관리에 대한 자세한 내용은 BigQuery 권장사항: 비용 관리에서 확인하기를 바란다.

2. 사용자 계정 인증

구글 코랩을 사용해서 인증 절차를 밟도록 한다. 아래 소스코드는 변경시키지 않는다. 아래 절차대로 진행하면 된다. Gmail 인증 절차와 비슷하다.

from google.colab import auth
auth.authenticate_user()
print('Authenticated')

Authenticated

3. 쿼리 기본

빅쿼리는 기본적으로 데이터 웨어하우스의 기능을 가지고 있다. Structured(데이터프레임) & Semi-Structured(JSON)과 같은 DB를 지원하고 있다. Create, Read, Update, Delete 기능을 지원한다.

빅쿼리는 데이터 분석을 위한 기본적인 도구이기 때문에, 웹/앱을 활용한 마케팅 분석이 필요한 업종에서는 어쩌면 반드시 가져가야할 일종의 언어이기도 하다.

기본적으로 SQL문법을 지원하며, BigQuery 나름의 문법을 또한 구성하고 있다. 이제 본격적으로 코드를 작성해보자.

현재 작성하는 모든 코드는 Python-BigQuery로 연동하여 작성하려고 한다. 이제 간단하게 쿼리를 작성해보자.

Ch05-Query_Essentials(1)에서는 SELECT와 AS에 대해 배우는 시간을 가졌다.
Ch05-Query_Essentials(2)에서는 WHERE와 EXCEPT, 그리고 REPLACE에 대해 배우는 시간을 가졌다.
Ch05-Query_Essentials(3)에서는 SubQuery에 대해서 집중적으로 배우는 시간을 가졌다.
Ch06 SQL Aggregates에서는 집계함수를 사용해서 데이터를 조금 더 디테일하게 요약하는 것을 배웠다.

오늘 포스트에서는 Split and Unnest, UNION에 대해서 배우도록 한다. 오늘 포스트의 목적은 테이블을 직접 만들어보자이다. (It's Free)

(1) Split and Unnest

데이터를 배열 형태로 조회할 수는 없을까? 빅쿼리에서는 이러한 문법을 보통 Array로 통칭해서 부른다.

ARRAY와 UNNEST의 조합을 통해서, 사용자는 다양한 쿼리와 함수, 그리고 데이터 유형에 대해 사전에 먼저 실험 및 탐색할 수 있는 기회를 준다.

우선, Split과 UNNEST을 활용해서 조회를 해보자.

from google.cloud import bigquery
from tabulate import tabulate

project_id = 'your_project_id'
client = bigquery.Client(project=project_id)

temp = client.query('''
  SELECT 
    city, split(city, ' ') AS parts
  FROM (
    SELECT * from UNNEST([
      'Seattle WA', 'New York', 'Singapore'
    ]) AS city
  )
  ''').to_dataframe()

print(tabulate(temp, tablefmt="pipe", headers="keys"))

WARNING:google.auth._default:No project ID could be determined. Consider running `gcloud config set project` or setting the GOOGLE_CLOUD_PROJECT environment variable


|    | city       | parts             |
|---:|:-----------|:------------------|
|  0 | Seattle WA | ['Seattle', 'WA'] |
|  1 | New York   | ['New', 'York']   |
|  2 | Singapore  | ['Singapore']     |

특히, parts Column을 보면, city Seattle WA가 [‘Seattle’, ‘WA’]로 반환되는 것을 볼 수 있다.

위 코드가 좋은 이유는 빅쿼리에서는 이러한 형태로 데이터 셋을 만들어서 다양한 실험을 한 뒤, 실제 데이터에서 적용을 할 수 있는 장점이 있다. 이 때, 빅쿼리는 비용을 산정하지 않는다.

즉, 빅쿼리가 JSON 형태의 데이터도 취급을 하기 때문에, 이렇게 Arrays를 잘 다룰줄 알면, 실제 데이터에 적용 시, 응용할 수 있는 장점을 제공한다.

(2) UNION

Split과 Unnest와 마찬가지로 임시적으로 데이터를 생성할 수 있다.

소스 코드를 통해서 확인해보자.

temp = client.query('''
  WITH example AS (
    SELECT 'Sat' As day, 1451 AS numrides,
    1018 AS oneways
    UNION ALL SELECT 'Sun', 2376, 936
    UNION ALL SELECT 'Mon', 1476, 736
  )

  SELECT * from example
  WHERE numrides < 2000
  ''').to_dataframe()

print(tabulate(temp, tablefmt='pipe', headers='keys'))

|    | day   |   numrides |   oneways |
|---:|:------|-----------:|----------:|
|  0 | Sat   |       1451 |      1018 |
|  1 | Mon   |       1476 |       736 |

마찬가지로 테이블이 생성된 것을 확인할 수 있다.

매우 짧은 포스트이지만, 실무에서는 자주 사용될 수 있는 예제이다. 이제 본격적으로 ARRAY에 대해서 배우도록 하자.

4. Reference

Lakshmanan, V., & Tigani, J. (2020). Google BigQuery: the definitive guide: data warehousing, analytics, and machine learning at scale. Beijing: OReilly.