R 텍스트 마이닝 1일차 - 빅카인즈 데이터 수집

Step 01 - 빅카인즈 접속 후, 데이터 내려받기 싸이트 : https://www.bigkinds.or.kr/v2/news/index.do 해당 싸이트에서 키워드를 입력 한다. 이 때, 기간, 신문사 등을 선택할 수 있다. 필자는 키워드는 ‘사회적 경제’ 신문사는 국민일보, 조선일보, 중앙일보를 선택한다. 하단으로 내려 적용하기 버튼을 클릭한다. Step 03 - 분석 결과 및 시각화 탭을 클릭한다. 데이터 다운로드 탭 하단에 엑셀 다운로드 버튼을 클릭한다. 해당 파일에는 본문이 있지만, 보통 200자 내외로 짧게 요약이 되어 있다. Step 02 - 웹 크롤링 소스 코드 작성을 위한 사전 준비 먼저 기 다운로드 된 파일을 불러온다.

Heroku App 배포

개요 Heroku App을 배포하는 과정을 작성한다. 가장 중요한 것은 Git과 연동이 되어 있어야 한다. 깃허브 : https://github.com/ GIT : https://git-scm.com/ 이 부분에 대한 설치 과정은 생략한다. 배포하려는 프로젝트는 다음 링크에서 확인한다. 참고 : Python Sales Dashboard Using Dash and Plotly Procfile 생성 프로젝트 Root 디렉터리에 Procfile 을 생성한다. web: gunicorn index:server 이 때, index 파일명을 의미한다. 작업 파일 수정 index.py을 열고, 다음 코드를 추가한다. server = app.server 을 추가한다. app = dash.

Python Sales Dashboard Using Dash and Plotly

개요 Sales 데이터를 활용하여 대시보드를 만드는 과정을 제작한다. 기본 파이썬 코딩은 할 줄 안다는 전제하에 작성하며, 세부 내용이 필요하면 참고 자료를 확인할 것을 권한다. 윈도우 10에서 본 프로젝트를 수행하였다. Chapter 1. Github Repo 생성 필자는 Github 레포를 만들었다. (Repo 명: python_dash_sales) git clone을 통해서 로컬로 가져온다. $ git clone https://github.com/your_id/python_dash_sales.git Chapter 2. Python 프로젝트 생성 PyCharm을 주 에디터로 사용할 예정이다. 파이썬은 아나콘다로 설치하였고, 이 때 환경변수 설정은 잘 되어 있는지 확인한다.

BigQuery ML을 사용한 펭귄 체중 예측

개요 BigQuery ML을 소개한다. BigQuery ML을 사용하면, 머신러닝 모델을 만들고 또한 실행할 수 있다. 목표 BigQuery ML에서 CREATE MODEL 문을 사용하여 선형회귀 모델 만들기 ML.EVALUATE 함수를 사용하여 ML 모델 평가 ML.PREDICT 함수를 사용하여 ML 모델 예측 주의 사항 BigQuery 비용 관련된 문서는 다음과 같다. BigQuery 가격 책정: https://cloud.google.com/bigquery/pricing BigQuery 가격 책정**:** https://cloud.google.com/bigquery-ml/pricing 1단계: 데이터 세트 만들기 데이터 세트 ID에 bqml_practice 입력 데이터 위치로 미국 US 선택 나머지는 모두 Default로 설정한다. 2단계: 모델 만들기 데이터 소개 먼저 데이터를 소개한다.

GCP Settings 2022 ver

개요 GCP 빅쿼리를 연동하는 예제를 구현한다. 먼저 빅쿼리를 통해 데이터를 적재하는 예제를 확인한다. 구글 코랩에서 빅쿼리 데이터를 불러온다. 데이터 스튜디오에서 빅쿼리 데이터를 불러온다. 소개 빅쿼리를 소개하는 영상은 유투브에서 검색하면 매우 쉽게 확인할 수 있다. 영상 참조: 데이터 웨어하우스 끝판왕 BigQuery 어디까지 알고 계신가요 Google Cloud 회원가입 준비물 Google 계정 신용카드나 체크카드 (개인적으로 돈이 없는 체크카드 사용 권장) 구글 클라우드 사이트 접속 싸이트: https://cloud.google.com/ 무료 서버 받으려면 아래 화면에서 TRY IT FREE 를 클릭한다.

Spark Installation on M1 Mac

사전준비 M1 Mac에서 스파크를 설치하는 과정을 소개 하려고 한다. 필자의 Python 버전은 아래와 같다. $ python --version Python 3.8.7 자바 설치 자바 설치는 아래에서 다운로드 받았다. URL: Java SE Development Kit 8u301 그 다음 자바 설치를 확정한다. $ java --showversion 만약 에러가 아래와 같은 에러가 발생한다면, 시스템 환경설정 - Java - 업데이트 항목을 순차적으로 클릭한다. $ java --showversion Error: Could not create the Java Virtual Machine. Error: A fatal exception has occurred.

Spark Installation on Windows 10

사전준비 스파크를 설치하는 과정은 소개 하려고 한다. 사전에 파이썬 3만 설치가 되어 있으면 된다. 만약, 파이썬이 처음이라면 Anaconda를 설치한다. 다운로드 전 필수 확인사항 스파크 설치 전에는 반드시 체크해야 하는 사항이 있다. (System Compatibility) 2022년 1월 기준은 아래와 같다. Get Spark from the downloads page of the project website. This documentation is for Spark version 3.2.0. Spark uses Hadoop’s client libraries for HDFS and YARN. Downloads are pre-packaged for a handful of popular Hadoop versions.

PyCaret Installation on M1 Mac

PyCaret Installation on M1 Mac 개요 M1 Mac에서 PyCaret을 설치하고 싶었다. PyCaret 은 AutoML 라이브러리이며, 단 몇줄의 코드로 복잡한 기계학습을 학습 및 비교할 수 있도록 구현한 코드라고 볼 수 있다. PyCaret 패키지: https://pycaret.org/ M1 Mac에서 해당 라이브러리를 사용하려면 크게 2가지 필수 전제 조건이 있다. LightGBM, XGboost 설치 1. PyCaret 설치 방법 일반 인텔 기반의 Mac의 설치는 매우 쉽다. (Intel Mac) $ brew install lightgbm 그러나, M1 Mac에서는 생각보다 쉽지 않다. 물론, Rosetta로 터미널을 바꾸면 Intel Mac 처럼 쓸 수 있다.

PyCaret, Skorch Using Pipeline

개요 Scikit-Learn의 Pipeline은 강력하다. PyCaret, Skorch에도 사용이 가능하다. Google Colab에서 시도해보자. 필수 라이브러리 설치 pycaret을 설치 한 후에는 반드시 런타임 재시작을 클릭한다. !pip install pycaret Collecting pycaret Downloading pycaret-2.3.5-py3-none-any.whl (288 kB) . . Successfully installed Boruta-0.3 Mako-1.1.6 PyYAML-6.0 alembic-1.4.1 databricks-cli-0.16.2 docker-5.0.3 funcy-1.17 gitdb-4.0.9 gitpython-3.1.24 gunicorn-20.1.0 htmlmin-0.1.12 imagehash-4.2.1 imbalanced-learn-0.7.0 joblib-1.0.1 kmodes-0.11.1 lightgbm-3.3.1 mlflow-1.22.0 mlxtend-0.19.0 multimethod-1.6 pandas-profiling-3.1.0 phik-0.12.0 prometheus-flask-exporter-0.18.7 pyLDAvis-3.2.2 pycaret-2.3.5 pydantic-1.8.2 pynndescent-0.5.5 pyod-0.9.6 python-editor-1.0.4 querystring-parser-1.2.4 requests-2.26.0 scikit-learn-0.23.2 scikit-plot-0.3.7 scipy-1.5.4 smmap-5.0.0 tangled-up-in-unicode-0.1.0 umap-learn-0.

Python with PostgreSQL - Create Database

PostgreSQL 및 Python 연동 예제 다음 예제에서는 Python과 PostgreSQL이 연동되는 코드를 작성해본다. PostgreSQL 설치 방법은 다음 자료를 확인한다. https://dschloe.github.io/settings/postgresql_install_windows/ 라이브러리 설치 우선 설치를 진행한다. $ pip install psycopg2-binary Downloading psycopg2_binary-2.9.2-cp310-cp310-win_amd64.whl (1.2 MB) |████████████████████████████████| 1.2 MB 6.4 MB/s Installing collected packages: psycopg2-binary Successfully installed psycopg2-binary-2.9.2 현재 Database 확인 cmd 파일 창을 열고, 현재 DB 리스트를 확인한다. \list or l: 전체 databases 리스트를 조회한다. C:\Users\user>psql --username=postgres postgres 사용자의 암호: psql (13.5) 도움말을 보려면 "help"를 입력하십시오.