Pythons

Spark Installation on Windows 10

사전준비 스파크를 설치하는 과정은 소개 하려고 한다. 사전에 파이썬 3만 설치가 되어 있으면 된다. 만약, 파이썬이 처음이라면 Anaconda를 설치한다. 다운로드 전 필수 확인사항 스파크 설치 전에는 반드시 체크해야 하는 사항이 있다. (System Compatibility) 2022년 1월 기준은 아래와 같다. Get Spark from the downloads page of the project website. This documentation is for Spark version 3.2.0. Spark uses Hadoop’s client libraries for HDFS and YARN. Downloads are pre-packaged for a handful of popular Hadoop versions.

PyCaret Installation on M1 Mac

PyCaret Installation on M1 Mac 개요 M1 Mac에서 PyCaret을 설치하고 싶었다. PyCaret 은 AutoML 라이브러리이며, 단 몇줄의 코드로 복잡한 기계학습을 학습 및 비교할 수 있도록 구현한 코드라고 볼 수 있다. PyCaret 패키지: https://pycaret.org/ M1 Mac에서 해당 라이브러리를 사용하려면 크게 2가지 필수 전제 조건이 있다. LightGBM, XGboost 설치 1. PyCaret 설치 방법 일반 인텔 기반의 Mac의 설치는 매우 쉽다. (Intel Mac) $ brew install lightgbm 그러나, M1 Mac에서는 생각보다 쉽지 않다. 물론, Rosetta로 터미널을 바꾸면 Intel Mac 처럼 쓸 수 있다.

PyCaret, Skorch Using Pipeline

개요 Scikit-Learn의 Pipeline은 강력하다. PyCaret, Skorch에도 사용이 가능하다. Google Colab에서 시도해보자. 필수 라이브러리 설치 pycaret을 설치 한 후에는 반드시 런타임 재시작을 클릭한다. !pip install pycaret Collecting pycaret Downloading pycaret-2.3.5-py3-none-any.whl (288 kB) . . Successfully installed Boruta-0.3 Mako-1.1.6 PyYAML-6.0 alembic-1.4.1 databricks-cli-0.16.2 docker-5.0.3 funcy-1.17 gitdb-4.0.9 gitpython-3.1.24 gunicorn-20.1.0 htmlmin-0.1.12 imagehash-4.2.1 imbalanced-learn-0.7.0 joblib-1.0.1 kmodes-0.11.1 lightgbm-3.3.1 mlflow-1.22.0 mlxtend-0.19.0 multimethod-1.6 pandas-profiling-3.1.0 phik-0.12.0 prometheus-flask-exporter-0.18.7 pyLDAvis-3.2.2 pycaret-2.3.5 pydantic-1.8.2 pynndescent-0.5.5 pyod-0.9.6 python-editor-1.0.4 querystring-parser-1.2.4 requests-2.26.0 scikit-learn-0.23.2 scikit-plot-0.3.7 scipy-1.5.4 smmap-5.0.0 tangled-up-in-unicode-0.1.0 umap-learn-0.

Python with PostgreSQL - Create Database

PostgreSQL 및 Python 연동 예제 다음 예제에서는 Python과 PostgreSQL이 연동되는 코드를 작성해본다. PostgreSQL 설치 방법은 다음 자료를 확인한다. https://dschloe.github.io/settings/postgresql_install_windows/ 라이브러리 설치 우선 설치를 진행한다. $ pip install psycopg2-binary Downloading psycopg2_binary-2.9.2-cp310-cp310-win_amd64.whl (1.2 MB) |████████████████████████████████| 1.2 MB 6.4 MB/s Installing collected packages: psycopg2-binary Successfully installed psycopg2-binary-2.9.2 현재 Database 확인 cmd 파일 창을 열고, 현재 DB 리스트를 확인한다. \list or l: 전체 databases 리스트를 조회한다. C:\Users\user>psql --username=postgres postgres 사용자의 암호: psql (13.5) 도움말을 보려면 "help"를 입력하십시오.

Verifying Outlier Values

이상값의 정의 다소 주관적이며(Somewhat Subjective), 특정 분포의 중심경향성, 퍼진 정도와 형태에 따라 밀접한 관련이 있다. 평균에서 표준편차보다 몇 배 더 떨어져 있다거나, 즉, 정규분포를 이루고 있지 않을 때 왜도 또는 첨도가 발생할 때 균등분포(Uniform Distribution)는, 발생할 확률이 모두 같다. 만약, 확진자수가 최소 1부터 최대 10,000,000까지 균등하게 분포한다면, 어떤 값도 이상값으로 고려하지 않는다. 이상값을 파악하려면, 반드시, 각 변수의 분포를 먼저 이해해야 한다. 라이브러리 및 데이터 불러오기 실습을 위한 데이터를 불러온다. import numpy as np import matplotlib.

Finding Missing Values

데이터 가져오기 pandas, numpy, matplotlib 라이브러리를 불러온다. 데이터를 불러온다. 데이터는 https://ourworldindata.org/coronavirus-source-data 에서 가져왔다. 2020년 6월 1일 기준이다. import pandas as pd covidtotals = pd.read_csv("data/covidtotalswithmissings.csv") print(covidtotals.head()) iso_code lastdate location total_cases total_deaths \ 0 AFG 2020-06-01 Afghanistan 15205 257 1 ALB 2020-06-01 Albania 1137 33 2 DZA 2020-06-01 Algeria 9394 653 3 AND 2020-06-01 Andorra 764 51 4 AGO 2020-06-01 Angola 86 4 total_cases_pm total_deaths_pm population pop_density median_age \ 0 390.589 6.602 38928341.

결정 트리 학습 이론

개요 현대 머신러닝 이론의 백본(Backbone)이 되는 결정 트리에 대해 이론적으로 살짝 정리한다. 주요 수식은 Python Machine Learning Second Edition 교재를 주로 참고 하였다. (Page: 90 ~ 94) 교재 출처: https://www.amazon.com/Python-Machine-Learning-scikit-learn-TensorFlow/dp/1787125939 결정 트리의 예 결정 트리는 여러가지 연속된 질문을 학습하여 분류하는 것이 원칙이다. 다음의 간단한 예를 들어본다. 결정 트리는 크게 3가지로 구성이 되어 있다. 트리 내부 노드, 리프 노드, 그리고 가지로 구성이 되어 있다. 어떻게 질문을 하느냐에 따라서 분류가 결정된다. 결정 트리는 숫자에도 적용할 수 있다.

Heroku Dash App 배포 - Windows 10

개요 Windows와 Virtualenv를 활용하여 빠르게 App 배포를 해본다. 1. 프로그램 다운로드 설치파일 주소: https://devcenter.heroku.com/articles/getting-started-with-python#set-up 설치할 때, 다음과 같은 에러가 발생할 수 있다. 이럴 경우에는 환경변수를 강제로 잡는다. C:\Program Files\heroku\bin Heroku가 제대로 환경설정이 되어 있는지 확인하려면, 터미널에서 다음 명령어를 입력해 확인한다. $ heroku -v heroku/7.53.0 win32-x64 node-v12.21.0 (base) Github 설치: https://git-scm.com/ 아나콘다 설치: https://www.anaconda.com/products/individual 각각의 환경설정은 모두 해둬야 한다. 2. Getting Started Heroku 회원가입을 한다. (https://signup.heroku.com/) 그리고 로그인을 한다. $ heroku login heroku: Press any key to open up the browser to login or q to exit: Opening browser to https://cli-auth.

Matplotlib 한글 폰트 추가 (Mac)

개요 Mac 유저를 위해 한글 폰트 추가하는 방법을 설명한다. 기본 코드는 Windows에서도 동작한다. 폰트 추가 방법은 생략한다. 한글 폰트 깨진 시각화 간단하게 깨진 한글이 들어간 시각화를 구현한다. import matplotlib.font_manager as fm import matplotlib.pyplot as plt import matplotlib as mpl plt.plot([1, 2, 3, 4, 5]) plt.title("테스트") plt.show() /Library/Frameworks/Python.framework/Versions/3.8/lib/python3.8/site-packages/matplotlib/backends/backend_agg.py:238: RuntimeWarning: Glyph 53580 missing from current font. font.set_text(s, 0.0, flags=flags) /Library/Frameworks/Python.framework/Versions/3.8/lib/python3.8/site-packages/matplotlib/backends/backend_agg.py:238: RuntimeWarning: Glyph 49828 missing from current font. font.set_text(s, 0.0, flags=flags) /Library/Frameworks/Python.framework/Versions/3.8/lib/python3.8/site-packages/matplotlib/backends/backend_agg.py:238: RuntimeWarning: Glyph 53944 missing from current font.

Airflow를 활용한 Data Cleansing 예제

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 Pandas와 Airflow를 활용하여 데이터를 정제하는 코드를 구성한다. 우선 데이터는 아래에서 CSV 파일을 다운로드 받고, Dags 파일 하단에 위치시킨다. URL: https://github.com/PaulCrickard/escooter/blob/master/scooter.csv Raw 데이터 확인 간단하게 Raw 데이터를 확인해보도록 한다. import pandas as pd df = pd.