Development

Spark Tutorial - Web UI on WSL

개요 간단하게 Spark Tutorial을 활용하여 Web UI를 가동한다. Spark Submit을 활용한다. 파이썬 가상환경 파이썬 가상환경을 작성한다. (필자의 경로는 pyskt_tutorial) $ pwd /mnt/c/hadoop/pyskt_tutorial 가상환경을 생성한다. evan@evan:/mnt/c/hadoop/pyskt_tutorial$ virtualenv venv 생성된 가상환경에 접속한다. evan@evan:/mnt/c/hadoop/pyskt_tutorial$ source venv/bin/activate (venv) evan@evan:/mnt/c/hadoop/pyskt_tutorial$ PySpark 설치 pyspark를 설치한다. (venv) evan@evan:/mnt/c/hadoop/pyskt_tutorial$ pip install pyspark Requirement already satisfied: pyspark in ./venv/lib/python3.8/site-packages (3.2.1) Requirement already satisfied: py4j==0.10.9.3 in ./venv/lib/python3.8/site-packages (from pyspark) (0.10.9.3) 데이터 생성 가상의 데이터를 생성한다. 소스파일과 구분 위해 data 폴더를 만든 후, 마크다운 파일을 하나 만들 것이다.

WSL2에서의 Spark 설치

개요 간단하게 PySpark를 설치해보는 과정을 작성한다. WSL2 설치 방법은 다루지 않는다. 필수 파일 설치 자바 및 Spark 파일을 설치하도록 한다. $ sudo apt-get install openjdk-8-jdk $ sudo wget https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz $ sudo tar -xvzf spark-3.2.0-bin-hadoop3.2.tgz .bashrc 파일 수정 필자의 현재 경로는 다음과 같다. evan@evan:/mnt/c/hadoop$ pwd /mnt/c/hadoop 설치한 파일은 다음과 같다. evan@evan:/mnt/c/hadoop$ ls spark-3.2.0-bin-hadoop3.2 spark-3.2.0-bin-hadoop3.2.tgz vi ~/.bashrc 파일을 열고 다음과 같이 코드를 작성한다. 다른 코드는 만지지 않는다. 가장 맨 마지막으로 내려온다. export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export SPARK_HOME=/mnt/c/hadoop/spark-3.

RcppMeCab 패키지 설치 (Windows)

개요 Mecab-ko 형태소 분석기 사용 위해서는 Rcppmecab 패키지를 설치해야 함. RcppMeCab 패키지 설치 앞서서 설치할 파일이 있음. URL: https://github.com/junhewk/RcppMeCab/blob/master/README_kr.md 해당 깃허브에서 설치해야 할 파일을 다운로드 받은 후, “C:\mecab” 경로에 설치한다. 설치 파일 MeCab 프로그램: mecab-ko-0.9.2-msvc-3 MeCab 사전: mecab-ko-dic-2.1.1-20180720-msvc-2 위 파일을 다운로드 받은 후, “C:\mecab"에서 압축을 해제한다. RcppMecab 패키지 불러오기. 이제 패키지를 불러오도록 한다. 해당 패키지는 Github 버전으로 설치해야 하기 때문에 아래와 같이 설치를 한다. library(remotes) install_github("junhewk/RcppMeCab") Downloading GitHub repo junhewk/RcppMeCab@HEAD Installing 3 packages: BH, RcppParallel, Rcpp .

Hexo Blog 이미지 추가

Hexo 이미지 추가 Hexo 블로그 작성 시, 이미지 파일을 추가하는 방법에 대해 배운다. 주요 참고자료 Asset Folders: https://hexo.io/docs/asset-folders Asset Folders | Hexo - Static Site Generator | Tutorial 9: https://youtu.be/feIDVQ2tz0o 방법 1. Global Asset Folder 가장 간편한 방법은 source 폴더 아래 images 폴더를 별도로 만든다. 마크다운에서 아래와 같이 입력을 한다. ![](/images/image.jpg) 실제로 테스트를 해본다. (logo.md) image file: https://upload.wikimedia.org/wikipedia/commons/e/e9/Hexo-logo.png # hexo logo 테스트 - 이미지 ![](/images/Hexo-logo.png) hexo server를 실행한 뒤 결과를 확인한다.

Hexo Blog 만들기

개요 간단하게 Hexo 블로그를 만들어 본다. I. 필수 파일 설치 1단계: nodejs.org 다운로드 설치가 완료 되었다면 간단하게 확인해본다. $ node -v 2단계: git-scm.com 다운로드 설치가 완료 되었다면 간단하게 확인해본다. $ git --version 3단계: hexo 설치 hexo는 npm을 통해서 설치가 가능하다. $ npm install -g hexo-cli II. 깃허브 설정 두개의 깃허브 Repo를 생성한다. 포스트 버전관리 (name: myblog) 포스트 배포용 관리 (name: rain0430.github.io) rain0430 대신에 각자의 username을 입력하면 된다. 이 때, myblog repo를 git clone을 통해 적당한 경로로 내려 받는다.

Shiny App Deployment Using GCP

I. 개요 Google Data Studio는 놀랍도록 유연한 도구로서 마케팅 대행사 중 Google Analytics를 활용한 업체들은 대부분 항상 사용합니다. 때로는 유연성이 더 필요할 때 R ’s Shiny 패키지를 사용하여 데이터 시각화 / 대시 보드 앱을 만드는 것이 매우 쉽습니다. 이 옵션을 사용하면 모든 소스의 데이터를 예측 모델링과 함께 사용할 수 있는 장점이 있습니다. 이 블로그 게시물은 3 부분으로 나누어져 있습니다. 먼저 Google Cloud Virtual Machine (VM)을 설정하고 웹 액세스를 허용하도록 방화벽 규칙을 구성합니다.

Basic Objects - Dataframe

공지 본 Tutorial은 강사에게 강의를 듣는 과거-현재-미래 학생들을 위해 작성하였습니다. 이 글을 읽어주시는 분들에게 작은 도움이 되기를 바랍니다. I. DataFrame의 개요 본 포스트는 프로그래밍과 R을 처음 배우는 사람을 위해 작성하였습니다. 짧게 읽어두시기를 바랍니다. 공부하실 때는 복잡하게 생각하지는 마시기를 바랍니다. 영어의 기본단어 및 문법을 배우듯이 그냥 받아들이시기를 바랍니다. 데이터프레임은 서로 다른 성질의 벡터가 모여 있는 집합이라고 할 수 있다.1 (1) 데이터프레임 생성 이제 데이터프레임을 만들어보자. 어려운 것은 아니니 쉽게 따라 올 수 있을 것이다.

list handling

I. 개요 모든 프로그래밍 언어에는 기본적으로 데이터타입이 존재한다. R도 프로그래밍 언어이기 때문에 데이터 타입의 일반적인 유형이 존재한다. Vector의 기본 개념을 익혔다면, 전반적인 구조에 대해 살피는 시간을 갖도록 한다. 먼저 동일 성질의 Vector가 모여서 matrix도 되고, 데이터프레임도 된다. 그리고 이러한 다양한 데이터의 구조가 모여 리스트를 형성하는데, 리스트를 만드는 것도 중요한 건, 즉 이해다. 리스트에 접근법이 중요한데, 리스트를 잘 다루면, apply 함수 계열을 사용하는데도 큰 도움이 된다. 특히, 100GB 이상의 데이터를 다루게 되면, apply() 함수로 작업해야 하는 일이 종종 발생한다.

More on Vectors and Indexing

공지 본 Tutorial은 강사에게 강의를 듣는 과거-현재-미래 학생들을 위해 작성하였습니다. 이 글을 읽어주시는 분들에게 작은 도움이 되기를 바랍니다. I. 벡터 본 포스트는 프로그래밍과 R을 처음 배우는 사람을 위해 작성하였습니다. 짧게 읽어두시기를 바랍니다. 공부하실 때는 복잡하게 생각하지는 마시기를 바랍니다. 영어의 기본단어 및 문법을 배우듯이 그냥 받아들이시기를 바랍니다. 현재 진행중인 R 기초문법은 아래와 같습니다. 원하시는 것은 참조해서 가볍게 공부하시기를 바랍니다. Basic Objects - Vector 벡터(Vector). R에서 다루는 가장 작은 단위값의 데이터다. 1차원으로 구성이 되어 있다.

Basic Objects - Vector

공지 본 Tutorial은 강사에게 강의를 듣는 과거-현재-미래 학생들을 위해 작성하였습니다. 이 글을 읽어주시는 분들에게 작은 도움이 되기를 바랍니다. I. 벡터 본 포스트는 프로그래밍과 R을 처음 배우는 사람을 위해 작성하였습니다. 짧게 읽어두시기를 바랍니다. 공부하실 때는 복잡하게 생각하지는 마시기를 바랍니다. 영어의 기본단어 및 문법을 배우듯이 그냥 받아들이시기를 바랍니다. 벡터(Vector). R에서 다루는 가장 작은 단위값의 데이터다. 1차원으로 구성이 되어 있다. (1) 4가지 벡터 크게 4가지의 벡터가 존재한다. 간단하게 코드를 작성해보자. xNum <- c(1, 3.