Spark

강의소개

인프런에서 Streamlit 관련 강의를 진행하고 있습니다.
- 인프런 : https://inf.run/YPniH

개요

현재 러닝 스파크 교재를 배우고 있다.
해당 교재는 주로 00.py에서 실행하는 방법으로 안내하고 있지만, Google Colab에서 어떻게 변환하는지 확인해보고자 한다.

Spark 설정

Spark 설치 버전은 아래 링크에서 확인한다.
- 주소 : https://spark.apache.org/downloads.html

Untitled

Download 버튼을 클릭하면 아래와 같은 화면이 나온다.
- 주소를 복사한다. https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz

Untitled

개요

Google Cloud Project에서 Github 계정을 연동하는 과정을 보여준다.
처음 GCP를 사용하는 독자분들은 이전 글을 참조해서 설정을 먼저 진행한다.
- 참조 : https://dschloe.github.io/gcp/2023/09/spark_installation_gcp/

Untitled

터미널 열기

기존 인스턴스는 중지를 시켰기 때문에 이를 다시 시작/재개 버튼을 눌러 활성화 한다.

Untitled

시작 버튼 클릭과 함께 오늘도 비용을 지불해본다.

Untitled

브라우저 창에서 열기를 진행한다.

Untitled

Git 설치

터미널에 Git을 설치하는 방법은 다음 명령어를 순차적으로 입력한다.

(base) ~$ sudo apt-get update -y
(base) ~$ sudo apt-get upgrade -y
(base) ~$ sudo apt install git
(base) ~$ git --version

Git Repo 생성

Github에서 Repo를 만든다. (Repo : mulcampFP)
- 보안을 위해 Private으로 지정한다.

Untitled

개요

Spark를 구글 클라우드에 설치하도록 한다.
프로젝트 시작부터 진행한다.

프로젝트 시작

본 화면에서 새로운 프로젝트를 시작한다.
프로젝트명 : mulcampFP

Untitled

VM 시작하기

VM 만들기를 클릭한다.

Untitled

활성 결제 계정이 없으면 결제계정을 등록한다.

Untitled

결제계정이 등록되면 다음과 같이 화면이 나오면 VM 설정이 가능하다.

Untitled

결제계정까지 완료가 되었으면 다음과 같이 Compute Engine API를 사용 버튼을 클릭해준다.

Untitled

이름은 mulcamp-gcp 지역은 서울로 했다.

Untitled

비용에 따라 성능을 선택할 수 있다.

Untitled

호스트 유지보수 시, VM 인스턴스는 마이그레이션을 권장한다.

Untitled

개요

간단하게 Spark Tutorial을 활용하여 Web UI를 가동한다.
Spark Submit을 활용한다.

파이썬 가상환경

파이썬 가상환경을 작성한다. (필자의 경로는 pyskt_tutorial)

$ pwd
/mnt/c/hadoop/pyskt_tutorial

가상환경을 생성한다.

evan@evan:/mnt/c/hadoop/pyskt_tutorial$ virtualenv venv

생성된 가상환경에 접속한다.

evan@evan:/mnt/c/hadoop/pyskt_tutorial$ source venv/bin/activate
(venv) evan@evan:/mnt/c/hadoop/pyskt_tutorial$

PySpark 설치

pyspark를 설치한다.

(venv) evan@evan:/mnt/c/hadoop/pyskt_tutorial$ pip install pyspark
Requirement already satisfied: pyspark in ./venv/lib/python3.8/site-packages (3.2.1)
Requirement already satisfied: py4j==0.10.9.3 in ./venv/lib/python3.8/site-packages (from pyspark) (0.10.9.3)

데이터 생성

가상의 데이터를 생성한다.
소스파일과 구분 위해 data 폴더를 만든 후, 마크다운 파일을 하나 만들 것이다.

(venv) evan@evan:/mnt/c/hadoop/pyskt_tutorial$ mkdir data && cd data
(venv) evan@evan:/mnt/c/hadoop/pyskt_tutorial/data$ vi README.md

README.md 파일에서 영어 텍스트 아무거나 추가한다.
- 필자는 Spark 설명구문을 추가했다.

This program just counts the number of lines containing ‘a’ and the number containing ‘b’ in a text file. Note that you’ll need to replace YOUR_SPARK_HOME with the location where Spark is installed. As with the Scala and Java examples, we use a SparkSession to create Datasets. For applications that use custom classes or third-party libraries, we can also add code dependencies to spark-submit through its --py-files argument by packaging them into a .zip file (see spark-submit --help for details). SimpleApp is simple enough that we do not need to specify any code dependencies.

We can run this application using the bin/spark-submit script:

SimpleApp.py 작성

다음과 같은 파일을 작성한다.
- 구체적인 코드 설명은 생략한다.
- 중요한 코드 중 하나는 input( ) 이다. 사용자가 입력을 하지 않으면 spark 세션은 계속 열린상태로 남게 된다. (일종의 Trick)

from pyspark.sql import SparkSession

logFile = "data/README.md"  # Should be some file on your system
spark = SparkSession.builder.appName("SimpleApp").getOrCreate()
logData = spark.read.text(logFile).cache()

numAs = logData.filter(logData.value.contains('a')).count()
numBs = logData.filter(logData.value.contains('b')).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

input("Typing....")

spark.stop()

Spark-Submit 제출

여기가 매우 중요한 파트이다.
보통 bin/spark-submitscript라 부르기도 한다.
- 자세한 설명은 다음 설명을 참조한다. https://spark.apache.org/docs/latest/submitting-applications.html

(venv) evan@evan:/mnt/c/hadoop/pyskt_tutorial$ $SPARK_HOME/bin/spark-submit --master local[4] /mnt/c/hadoop/pyskt_tutorial/SimpleApp.py

실행하면 아래와 같은 메시지가 뜰 것이다. 이 때, 주소를 복사한다.
- Using 172.17.233.202 주소를 복사한다. (이는 각 컴퓨터마다 다를 것이다!)

Untitled

개요

간단하게 PySpark를 설치해보는 과정을 작성한다.
WSL2 설치 방법은 다루지 않는다.

필수 파일 설치

자바 및 Spark 파일을 설치하도록 한다.

$ sudo apt-get install openjdk-8-jdk
$ sudo wget https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
$ sudo tar -xvzf spark-3.2.0-bin-hadoop3.2.tgz

.bashrc 파일 수정

필자의 현재 경로는 다음과 같다.

evan@evan:/mnt/c/hadoop$ pwd
/mnt/c/hadoop

설치한 파일은 다음과 같다.

evan@evan:/mnt/c/hadoop$ ls
spark-3.2.0-bin-hadoop3.2  spark-3.2.0-bin-hadoop3.2.tgz

vi ~/.bashrc 파일을 열고 다음과 같이 코드를 작성한다.
- 다른 코드는 만지지 않는다.
- 가장 맨 마지막으로 내려온다.

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_HOME=/mnt/c/hadoop/spark-3.2.0-bin-hadoop3.2
export PATH=$JAVA_HOME/bin:$PATH
export PATH=$SPARK_HOME/sbin:$PATH
export PYSPARK_PYTHON=/usr/bin/python3

테스트

pyspark를 실행한다. (경로에 주의한다)

evan@evan:/mnt/c/hadoop/spark-3.2.0-bin-hadoop3.2$ pwd
/mnt/c/hadoop/spark-3.2.0-bin-hadoop3.2
evan@evan:/mnt/c/hadoop/spark-3.2.0-bin-hadoop3.2$ pysaprk
Python 3.8.10 (default, Mar 15 2022, 12:22:08)
[GCC 9.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
22/04/19 19:39:57 WARN Utils: Your hostname, evan resolves to a loopback address: 127.0.1.1; using 172.17.233.202 instead (on interface eth0)
22/04/19 19:39:57 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/04/19 19:39:59 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.2.0
      /_/

Using Python version 3.8.10 (default, Mar 15 2022 12:22:08)
Spark context Web UI available at http://172.17.233.202:4040
Spark context available as 'sc' (master = local[*], app id = local-1650364801421).
SparkSession available as 'spark'.
>>> rd = sc.textFile("README.md")
>>> rd.count()
109

참조

Installation of Pyspark (All operating systems), https://www.datacamp.com/community/tutorials/installation-of-pyspark
Apache Spark 2.4.3 Installation on Windows 10 using Windows Subsystem for Linux, https://kontext.tech/article/311/apache-spark-243-installation-on-windows-10-using-windows-subsystem-for-linux

사전준비

M1 Mac에서 스파크를 설치하는 과정을 소개 하려고 한다.
필자의 Python 버전은 아래와 같다.

$ python --version
Python 3.8.7

자바 설치

자바 설치는 아래에서 다운로드 받았다.
- URL: Java SE Development Kit 8u301

Screen Shot 2022-01-05 at 12.57.39 AM.png

그 다음 자바 설치를 확정한다.

$ java --showversion

만약 에러가 아래와 같은 에러가 발생한다면, 시스템 환경설정 - Java - 업데이트 항목을 순차적으로 클릭한다.

$ java --showversion
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.

Screen Shot 2022-01-05 at 12.20.33 AM.png

사전준비

스파크를 설치하는 과정은 소개 하려고 한다.
사전에 파이썬 3만 설치가 되어 있으면 된다.
만약, 파이썬이 처음이라면 Anaconda를 설치한다.

다운로드 전 필수 확인사항

스파크 설치 전에는 반드시 체크해야 하는 사항이 있다. (System Compatibility)
2022년 1월 기준은 아래와 같다.

Get Spark from the downloads page of the project website. This documentation is for Spark version 3.2.0. Spark uses Hadoop’s client libraries for HDFS and YARN. Downloads are pre-packaged for a handful of popular Hadoop versions. Users can also download a “Hadoop free” binary and run Spark with any Hadoop version by augmenting Spark’s classpath. Scala and Java users can include Spark in their projects using its Maven coordinates and Python users can install Spark from PyPI.

Spark

Spark Code 실행 예제

강의소개

개요

Spark 설정

Compute Engine with Github in GCP

개요

터미널 열기

Git 설치

Git Repo 생성

Spark Installation with GCP (Sept. 2023)

개요

프로젝트 시작

VM 시작하기

Spark Tutorial - Web UI on WSL

개요

파이썬 가상환경

PySpark 설치

데이터 생성

SimpleApp.py 작성

Spark-Submit 제출

WSL2에서의 Spark 설치

개요

필수 파일 설치

.bashrc 파일 수정

테스트

참조

Spark Installation on M1 Mac

사전준비

자바 설치

Spark Installation on Windows 10

사전준비

다운로드 전 필수 확인사항