Google Cloud

개요

SSH Key를 이용하여 로컬에서 원격으로 GCP 프로젝트에 접속을 한다.
만약 GCP가 처음이신 분들은 이전 글을 순차적으로 읽어본다.

SSH Key 생성하기

puTTYgen에서 public / private key 값을 생성한다.

Untitled

Generate 버튼을 클릭한다.

Untitled

Private Key를 OpenSSH 방식으로 Export 한다.
- Key Comment에 구글 계정을 입력한다.
- password도 입력한다.

Untitled

Public Key는 모두 복사한다.

GCP 메타데이터 등록

Compute Engine > 메타데이터 접속하여 SSH 키에 붙여 넣는다.

Untitled

개요

기 설치된 Compute Engine에 라이브러리를 설치하고 간단하게 Streamlit 배포를 진행한다.
만약 GCP가 처음이신 분들은 이전 글을 순차적으로 읽어본다.
- Spark Installation with GCP (Sept. 2023)
- Compute Engine with Github in GCP

requirements.txt

Github Repo에서 Add file > Create new file을 클릭 후, 아래 주요 라이브러리를 입력한다.
- 파일명 : requirements.txt

Untitled

라이브러리명은 다음과 같다. 입력 후, Commit Changes 버튼을 클릭한다.

pyspark==3.1.1
pandas
streamlit
matplotlib

Untitled

현재 파일 목록은 아래와 같다.

Untitled

개요

Google Cloud Project에서 Github 계정을 연동하는 과정을 보여준다.
처음 GCP를 사용하는 독자분들은 이전 글을 참조해서 설정을 먼저 진행한다.
- 참조 : https://dschloe.github.io/gcp/2023/09/spark_installation_gcp/

Untitled

터미널 열기

기존 인스턴스는 중지를 시켰기 때문에 이를 다시 시작/재개 버튼을 눌러 활성화 한다.

Untitled

시작 버튼 클릭과 함께 오늘도 비용을 지불해본다.

Untitled

브라우저 창에서 열기를 진행한다.

Untitled

Git 설치

터미널에 Git을 설치하는 방법은 다음 명령어를 순차적으로 입력한다.

(base) ~$ sudo apt-get update -y
(base) ~$ sudo apt-get upgrade -y
(base) ~$ sudo apt install git
(base) ~$ git --version

Git Repo 생성

Github에서 Repo를 만든다. (Repo : mulcampFP)
- 보안을 위해 Private으로 지정한다.

Untitled

개요

Spark를 구글 클라우드에 설치하도록 한다.
프로젝트 시작부터 진행한다.

프로젝트 시작

본 화면에서 새로운 프로젝트를 시작한다.
프로젝트명 : mulcampFP

Untitled

VM 시작하기

VM 만들기를 클릭한다.

Untitled

활성 결제 계정이 없으면 결제계정을 등록한다.

Untitled

결제계정이 등록되면 다음과 같이 화면이 나오면 VM 설정이 가능하다.

Untitled

결제계정까지 완료가 되었으면 다음과 같이 Compute Engine API를 사용 버튼을 클릭해준다.

Untitled

이름은 mulcamp-gcp 지역은 서울로 했다.

Untitled

비용에 따라 성능을 선택할 수 있다.

Untitled

호스트 유지보수 시, VM 인스턴스는 마이그레이션을 권장한다.

Untitled

개요

BigQuery ML을 소개한다.
BigQuery ML을 사용하면, 머신러닝 모델을 만들고 또한 실행할 수 있다.

목표

BigQuery ML에서 CREATE MODEL 문을 사용하여 선형회귀 모델 만들기
ML.EVALUATE 함수를 사용하여 ML 모델 평가
ML.PREDICT 함수를 사용하여 ML 모델 예측

주의 사항

BigQuery 비용 관련된 문서는 다음과 같다.
- BigQuery 가격 책정: https://cloud.google.com/bigquery/pricing
- BigQuery 가격 책정**:** https://cloud.google.com/bigquery-ml/pricing

1단계: 데이터 세트 만들기

데이터 세트 ID에 bqml_practice 입력
데이터 위치로 미국 US 선택
나머지는 모두 Default로 설정한다.

Untitled

2단계: 모델 만들기

데이터 소개

먼저 데이터를 소개한다.
데이터 원 자료는 해당 논문에서 확인할 수 있다.
- https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0090081
데이터 셋에 대한 설명은 다음과 같다.
- species — 펭귄의 종(문자열)
- island — 펭귄이 사는 섬(문자열)
- culmen_length_mm — 컬멘 길이(밀리미터)(FLOAT64).
- culmen_depth_mm — 컬멘 깊이(밀리미터)(FLOAT64)
- flipper_length_mm — 지느러미의 길이(밀리미터)(FLOAT64)
- sex — 펭귄의 성별(문자열)

모델 만들기 코드 실행

CREATE MODEL 명령어를 실행하여 모델을 생성한다.

#standardSQL
CREATE OR REPLACE MODEL `bqml_practice.penguins_model`
OPTIONS
  (model_type='linear_reg',
  input_label_cols=['body_mass_g']) AS
SELECT
  *
FROM
  `bigquery-public-data.ml_datasets.penguins`
WHERE
  body_mass_g IS NOT NULL

실행 결과는 보는 것처럼 Preprocess, Train, Evaluate 작업이 진행 된 것을 확인할 수 있다.

Untitled

개요

GCP 빅쿼리를 연동하는 예제를 구현한다.
먼저 빅쿼리를 통해 데이터를 적재하는 예제를 확인한다.
구글 코랩에서 빅쿼리 데이터를 불러온다.
데이터 스튜디오에서 빅쿼리 데이터를 불러온다.

소개

빅쿼리를 소개하는 영상은 유투브에서 검색하면 매우 쉽게 확인할 수 있다.
- 영상 참조: 데이터 웨어하우스 끝판왕 BigQuery 어디까지 알고 계신가요

Google Cloud 회원가입

준비물
- Google 계정
- 신용카드나 체크카드 (개인적으로 돈이 없는 체크카드 사용 권장)
구글 클라우드 사이트 접속
- 싸이트: https://cloud.google.com/
무료 서버 받으려면 아래 화면에서 TRY IT FREE 를 클릭한다.

Untitled

공지

본 자료는 아래 책에서 일부 발췌 하였고, 해당 코드를 재응용하기 위해 노력하였습니다. 전체 원 소스 코드를 보시려면 책을 구매하시기를 바랍니다.
실무 예제로 끝내는 R 데이터 분석: 데이터 분석가에게 꼭 필요한 5가지 실무 예제로 분석 프로세스 이해하기
- 구입처: http://www.yes24.com/Product/Goods/103449758?OzSrank=1

개요

Youtube API에 등록 후, 댓글 수집 및 감성을 분석하는 과정을 담았습니다.

구글 API 프로젝트 생성하기

API 사용을 위해서는 구글 개발자 콘솔에 접속한다.
- URL: https://console.developers.google.com/

아래와 같이 새로운 프로젝트 만들기를 클릭 한다.

I. 구글 클라우드 설정

본격적인 빅쿼리 실습에 앞서서, Python과 연동하는 예제를 준비하였다. 빅쿼리 시작에 앞서서 선행적으로 클라우드 사용을 해야 한다.

만약 GCP 프로젝트가 없다면, 계정을 연동한다. Go to Cloud Resource Manager
그리고, 비용결제를 위한 카드를 등록한다. Enable billing
마지막으로 BigQuery API를 사용해야 하기 때문에 빅쿼리 API 사용허가를 내준다.Enable BigQuery

위 API를 이용하지 않으면 Python 또는 R과 연동해서 사용할 수는 없다. 자주 쓰는것이 아니라면 비용은 거의 발생하지 않으니 염려하지 않아도 된다. 비용관리에 대한 자세한 내용은 BigQuery 권장사항: 비용 관리에서 확인하기를 바란다.

1줄 요약

데이터 분석을 위한 SQL 레시피 교재를 빅쿼리에서 활용해본다.

책 소개

블로그 글 중 잘 정리된 글이 있어 소개합니다. 빅데이터책: 데이터 분석을 위한 SQL 레시피 읽어보았습니다.

실습 준비

도서의 부록/예제소스를 다운로드 하세요.
예제 소스 코드를 열어봅니다.
sql 소스코드로 구성이 되어 있는 것을 확인할 수 있습니다.
저자가 말하는 샘플 데이터 내용은 아래와 같습니다.
이번에는 임의의 SQL 파일을 열어서 확인하도록 합니다.

위 이미지에서 보면, Table을 생성하는 형태로 구성이 되어 있는 것을 알 수 있습니다.
따라서, 위 코드가 실제 빅쿼리에도 동일하게 적용이 되는지 확인을 하도록 합니다.

빅쿼리에서의 실습

빅쿼리를 처음 하시는 분들은 다음 게시글에서 확인 바랍니다.
- Kaggle-Python-Bigquery 연동 예제
- Ch01 BigQuery getstarted
새로운 프로젝트를 생성합니다. 필자는 sqlRecipe라고 하였습니다.

1줄 요약

캐글 데이터를 빅쿼리에 넣어보

캐글 데이터 다운로드

캐글 데이터를 다운로드 받습니다.

!pip install kaggle

Requirement already satisfied: kaggle in /usr/local/lib/python3.7/dist-packages (1.5.12)
Requirement already satisfied: six>=1.10 in /usr/local/lib/python3.7/dist-packages (from kaggle) (1.15.0)
Requirement already satisfied: requests in /usr/local/lib/python3.7/dist-packages (from kaggle) (2.23.0)
Requirement already satisfied: urllib3 in /usr/local/lib/python3.7/dist-packages (from kaggle) (1.24.3)
Requirement already satisfied: certifi in /usr/local/lib/python3.7/dist-packages (from kaggle) (2020.12.5)
Requirement already satisfied: python-dateutil in /usr/local/lib/python3.7/dist-packages (from kaggle) (2.8.1)
Requirement already satisfied: tqdm in /usr/local/lib/python3.7/dist-packages (from kaggle) (4.41.1)
Requirement already satisfied: python-slugify in /usr/local/lib/python3.7/dist-packages (from kaggle) (4.0.1)
Requirement already satisfied: idna<3,>=2.5 in /usr/local/lib/python3.7/dist-packages (from requests->kaggle) (2.10)
Requirement already satisfied: chardet<4,>=3.0.2 in /usr/local/lib/python3.7/dist-packages (from requests->kaggle) (3.0.4)
Requirement already satisfied: text-unidecode>=1.3 in /usr/local/lib/python3.7/dist-packages (from python-slugify->kaggle) (1.3)

!mkdir ~/.kaggle
!echo '{"username":"your_id","key":"your_key"}' > ~/.kaggle/kaggle.json
!chmod 600 ~/.kaggle/kaggle.json

!kaggle competitions download -c tabular-playground-series-apr-2021

Warning: Looks like you're using an outdated API Version, please consider updating (server 1.5.12 / client 1.5.4)
Downloading test.csv.zip to /content
  0% 0.00/2.07M [00:00<?, ?B/s]
100% 2.07M/2.07M [00:00<00:00, 59.0MB/s]
Downloading train.csv.zip to /content
  0% 0.00/2.13M [00:00<?, ?B/s]
100% 2.13M/2.13M [00:00<00:00, 69.3MB/s]
Downloading sample_submission.csv to /content
  0% 0.00/879k [00:00<?, ?B/s]
100% 879k/879k [00:00<00:00, 124MB/s]

!ls

sample_data  sample_submission.csv  test.csv.zip  train.csv.zip

!unzip "*.zip"

Archive:  train.csv.zip
  inflating: train.csv               

Archive:  test.csv.zip
  inflating: test.csv                

2 archives were successfully processed.

사용자 계정 인증

from google.colab import auth
auth.authenticate_user()
print('Authenticated')

Authenticated

빅쿼리 사용 예제

빅쿼리 사용에 앞서서 세팅을 해야 합니다.