사전학습 이 글을 읽기전에 한번 Streamlit 라이브러리를 활용한 배포 - BigQuery 사용 을 읽고 오기를 바란다. 실습 순서 서울시 부동산 실거래가를 API 크롤링으로 가져온다. JSON 형태의 데이터를 pandas 데이터프레임으로 변환한다. 데이터프레임을 BigQuery에 전체 데이터를 저장한다. 저장된 데이터프레임을 BigQuery에서 일부 컬럼만 불러온다. 실습 1 - API 크롤링에서 빅쿼리로 데이터 저장 .streamlit/secrets.toml 을 열고 아래와 같이 설정한다. seoul_api_key는 서울 열린데이터 광장을 의미한다. gcp_service_account 아래 내용은 api key를 json 파일로 열면 확인할 수 있다.
개요 GCP에서 개발환경을 설정하도록 한다. Local PC에서 GCP로 접속을 하도록 한다. 사전준비 WSL2 Ubuntu 설치 과정은 여기에서 다루지 않는다. 개발환경 설치 Python3 설치한다. (본인에게 맞는 언어를 선택한다) sudo apt update sudo apt install -y python3 python3-pip python3 최신 버전(417.0.1) gcloud CLI 설치 참고자료 : https://cloud.google.com/sdk/docs/install-sdk?hl=ko gcloud CLI를 설치하기 전 운영체제가 다음 요구사항을 충족하는지 확인합니다. $ sudo apt-get install apt-transport-https ca-certificates gnupg 패키지 소스로 gcloud CLI 배포 URI를 추가합니다. 배포판에서 서명 옵션을 지원하는 경우 다음 명령어를 실행합니다.
사전 준비 WSL2가 설치가 되어 있어야 한다. 참고 : https://dschloe.github.io/settings/wsl2_install_on_windows/ 도커 설치 해당 싸이트에 접속한다. (참조 : https://www.docker.com/products/docker-desktop/) 관리자 권한으로 실행 설치가 완료가 되면 Close and Log Out 버튼이 나오면 클릭하면 윈도우 로그아웃이 진행되기 때문에, 다시 재 로그인을 하도록 한다. 아래 그림 메뉴 우측 상단에 Sign In 버튼을 클릭해 로그인을 한다. 도커 Settings 창에 들어가서 아래 그림처럼 변경후 Apply & Restart 버튼을 클릭한다. 테스트 PowerShell에서 도커 명령어가 실행되는지 확인한다. PS C:\Users\h> docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES PS C:\Users\h> docker --version Docker version 20.
Step 0. 설정을 통해 Hyper-V 역할 활성화 Windows 기능 사용/사용 안 함 재부팅을 해야 한다. Step 1. WSL2 설치 과정 Windows PowerShell 관리자로 실행 후 다음 명령어 입력 $ dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart $ dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart 위 명령어 실행 후, 재부팅 필수 x64 머신용 최신 WSL2 Linux 커널 업데이트 패키지를 다운로드 받아 안내에 따라 설치합니다. Windows Powershell 열고 아래 코드 실행 $ wsl --set-default-version 2 WSL 2와의 주요 차이점에 대한 자세한 내용은 https://aka.
개요 윈도우 WSL2에서 AWS 개발을 위한 기본 개발환경 설정을 진행한다. WSL2 설치 WSL2 설치 및 사용법은 다음 링크를 통해서 확인한다. (여기서 설치법은 다루지 않는다!) URL : https://www.lainyzine.com/ko/article/how-to-install-wsl2-and-use-linux-on-windows-10/ Restart WSL2 WSL2 처음 작업할 때, 실행한다. exec $SHELL WSL2 주요 필수 패키지 설치 Python 3.8 버전을 설치한다. sudo apt update sudo apt install software-properties-common sudo add-apt-repository ppa:deadsnakes/ppa sudo apt install python3.7 Python 버전은 다음과 같다. $ python3 --version Python 3.8.10 만약 Python 버전 변경이 안되면 전체 삭제하고 진행한다.
개요 간단하게 Spark Tutorial을 활용하여 Web UI를 가동한다. Spark Submit을 활용한다. 파이썬 가상환경 파이썬 가상환경을 작성한다. (필자의 경로는 pyskt_tutorial) $ pwd /mnt/c/hadoop/pyskt_tutorial 가상환경을 생성한다. evan@evan:/mnt/c/hadoop/pyskt_tutorial$ virtualenv venv 생성된 가상환경에 접속한다. evan@evan:/mnt/c/hadoop/pyskt_tutorial$ source venv/bin/activate (venv) evan@evan:/mnt/c/hadoop/pyskt_tutorial$ PySpark 설치 pyspark를 설치한다. (venv) evan@evan:/mnt/c/hadoop/pyskt_tutorial$ pip install pyspark Requirement already satisfied: pyspark in ./venv/lib/python3.8/site-packages (3.2.1) Requirement already satisfied: py4j==0.10.9.3 in ./venv/lib/python3.8/site-packages (from pyspark) (0.10.9.3) 데이터 생성 가상의 데이터를 생성한다. 소스파일과 구분 위해 data 폴더를 만든 후, 마크다운 파일을 하나 만들 것이다.
개요 간단하게 PySpark를 설치해보는 과정을 작성한다. WSL2 설치 방법은 다루지 않는다. 필수 파일 설치 자바 및 Spark 파일을 설치하도록 한다. $ sudo apt-get install openjdk-8-jdk $ sudo wget https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz $ sudo tar -xvzf spark-3.2.0-bin-hadoop3.2.tgz .bashrc 파일 수정 필자의 현재 경로는 다음과 같다. evan@evan:/mnt/c/hadoop$ pwd /mnt/c/hadoop 설치한 파일은 다음과 같다. evan@evan:/mnt/c/hadoop$ ls spark-3.2.0-bin-hadoop3.2 spark-3.2.0-bin-hadoop3.2.tgz vi ~/.bashrc 파일을 열고 다음과 같이 코드를 작성한다. 다른 코드는 만지지 않는다. 가장 맨 마지막으로 내려온다. export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export SPARK_HOME=/mnt/c/hadoop/spark-3.
설치 wsl2에서 JAVA 설치 한다. $ sudo apt-get update && sudo apt-get upgrade $ sudo apt install openjdk-11-jre-headless $ vi ~/.bash_profile export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 curl을 이용해서 NiFi를 현재 경로에 내려받는다. $ sudo wget https://downloads.apache.org/nifi/1.16.0/nifi-1.16.0-bin.tar.gz .tar.gz 파일의 압축을 푼다. $ sudo tar xvzf nifi-1.16.0-bin.tar.gz 압축파일을 푼 다음에는 cd nifi-1.16.0 폴더에 접속을 한다. $ cd nifi-1.16.0/bin ls를 실행해서 nifi-env.sh 파일이 있는지 확인하고 있다면, vi 에디터로 연다. .bash_profile에서 한 것처럼 동일하게 자바 환경변수를 잡아준다. $ sudo vi nifi-env.
Step 1. 사전 필수 패키지 설치 우선 시스템 패키지를 업데이트 하고, HTTPS와 관련된 패키지를 설치한다. $ sudo apt update $ sudo apt install apt-transport-https 자바를 설치한다. 이미 설치가 되어 있다면 버전만 확인한다. $ sudo apt install openjdk-11-jdk 설치한 버전을 확인한다. $ java -version openjdk version "11.0.14.1" 2022-02-08 OpenJDK Runtime Environment (build 11.0.14.1+1-Ubuntu-0ubuntu1.20.04) OpenJDK 64-Bit Server VM (build 11.0.14.1+1-Ubuntu-0ubuntu1.20.04, mixed mode, sharing) 자바 환경 변수를 설정하기 위해 아래와 같이 에디터를 입력한다. $ sudo vi /etc/environment 그리고 아래와 같이 추가한다.
개요 WSL2에서 PostgreSQL을 설치한다. pgAdmin은 Windows에 설치한다. 터미널 업그레이드 먼저 WSL 터미널을 열고, Ubuntu 패키지를 모두 업데이트 및 업그레이드를 한다. $ sudo apt update [sudo] password for evan: Hit:1 https://artifacts.elastic.co/packages/7.x/apt stable InRelease Get:2 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB] Hit:3 http://archive.ubuntu.com/ubuntu focal InRelease Get:4 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB] Get:5 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB] Get:6 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [1712 kB] Get:7 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [916 kB] Fetched 2963 kB in 5s (600 kB/s) Reading package lists.