Pythons

Elastic Search Engine Installation

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 검색 엔진을 말한다. Mac에서 설치하는 과정을 진행한다. 가상 환경은 virtualenv 를 통해서 진행한다. 참조: https://lee-mandu.tistory.com/517?category=838684 그 후에 가상 환경에 접속한다. 설치 각 OS별 설치 과정은 해당 URL에서 참조할 수 있다. URL: https://www.elastic.co/guide/en/elasticsearch/reference/current/install-elasticsearch.html MacOS: https://www.

Apache Airflow Installation

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 NiFi와 같은 용도의 소프트웨어이며, 현재 가장 인기 있는 오픈소스 데이터 파이프라인 도구라고 할 수 있다. 보통은 시스템에 경로를 설정한다. 그런데, 본 장에서는 가상환경 설정 후 진행하는 것으로 했다. 가상 환경은 virtualenv 를 통해서 진행한다.

Apache NiFi Installation

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 데이터 엔지니어링에 필요한 기본적인 인프라를 설치 진행하는 튜토리얼을 만들었다. 기본적으로 교재에 충실하지만, 약 1년전에 쓰인 책이라, 최신 버전으로 업그레이드 하였다. Apache NiFi 설치과정 먼저 웹사이트에 방문하여 필요한 파일을 다운로드 받는다. URL: https://nifi.apache.org/download.html wget을 이용해서 NiFi를 현재 디렉터리에 내려받는다.

LSTM을 활용한 주식가격 예측

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 [비전공자 대환영] 캐글 데이터를 활용한 Optuna with MLFlow - 캐글다지기 머신러닝 하이퍼파라미터 튜닝 등을 배우고 싶다면 다음 강의를 참고하세요. LSTM과 RNN의 개요 RNN은 자연어처리에서 사용되는 대표적인 알고리즘 순환신경망으로 표현됨 활용범위: 음성 인식, 언어 모델링, 번역, 이미지 주석 생성 Long Short-term Memory로 1997년에 소개되었음(Hochreiter and Schmidhuber, 1997).

기업 요청 샘플 (수강생) - Python Dash를 활용한 대시보드

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 보안 로그 파일을 업로드한 뒤, 점검 결과를 자동으로 출력해주도록 한다. (수강생의 도전) 보안 로그 파일을 업로드 한 뒤, CPU 사용률이 70%가 넘으면 경고 메시지를 뛰우도록 한다. Chapter 1. 로그데이터 분석 및 확인 먼저 CPU가 들어있는 로그데이터를 확인한다.

네이버 뉴스 댓글 크롤링 대시보드 만들기 with Heroku

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 1. 개요 기존 웹크롤링은 주로 코드에 기반한 소개가 주를 이루었음 본 장에서는 가급적 사용자 기준에 맞춰서 뉴스 URL만 입력하면 댓글 수집할 수 있는 기능 소개함 2. 라이브러리 크롤링 및 대시보드 작업을 위한 필수 라이브러리는 다음과 같음 (requirements.

Python Dash를 활용한 대시보드에서 엑셀 데이터로 다운로드 받기

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 [대시보드] Dash Project - Excel 다운로드 개요 각 레벨에 따라 달라지는 데이터를 시각화로 표현하고 결과치를 엑셀로 다운로드 받는 기능을 구현한다. 데이터 다운로드 데이터는 로그 분석을 통한 보안 위험도 예측 AI 경진대회 에서 가져왔다. (회원가입 필수) Data: https://dacon.

Python Dash를 활용한 대시보드 만들기 with Heroku

강의 소개 필자의 강의를 소개합니다. 개요 대시보드 프로젝트를 진행한다. Heroku에 배포까지 진행하는 것을 목적으로 한다. 참조: https://realpython.com/python-dash/ 여기에 있는 내용을 최대한 간결하게 한글로 재 작성하였다. 중간에 없는 코드들도 있으니, 가급적 본 소스코드를 활용한다. 1. 데이터 수집 데이터: https://www.kaggle.com/neuromusic/avocado-prices 다운로드 받은 파일은 임의의 폴더 안에 넣습니다. (필자: dashboard-project21) C:\Users\1\Desktop\dashboard-project21>tree /f 폴더 PATH의 목록입니다. 볼륨 일련 번호는 E657-CFA3입니다. C:. │ README.md │ └─data avocado.csv 파일 경로를 주의해서 보도록 합니다. 2. 가상환경 및 라이브러리 설치 conda를 활용하여 가상환경 설정을 합니다.

In ML, Data Leakage - 2

머신러닝 전처리 자주하는 안 좋은 습관들 모음 참고 자료: https://scikit-learn.org/stable/common_pitfalls.html Sample 데이터 먼저 가상의 데이터를 하나 생성합니다. from sklearn.datasets import make_regression from sklearn.model_selection import train_test_split random_state = 42 X, y = make_regression(random_state = random_state, n_features = 1, noise = 1) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = random_state) Inconsistent preprocessing 모델을 학습시킬 때 이러한 데이터 변환을 사용하는 경우 테스트 데이터든 프로덕션 시스템의 데이터든 후속 데이터셋에도 사용해야 합니다.

In ML, Data Leakage - 1

Data Leakage 모형 평가를 하기 전에 전체 데이터셋을 가공 및 변환함. 이를 평가에 반영하면 새로운 데이터를 예측할 때 부정확한 결과를 도출 할 수 있음. 이를 방지 하기 위해서는 training 데이터만 데이터 전처리를 수행하는 것이 바람직함. Data Leakage를 피하기 위해서는 scikit-learn modeling pipeline을 설계해햐 함. 데이터 준비 가상의 데이터를 준비한다. 데이터는 모두 수치형 데이터로 준비했다. from sklearn.datasets import make_classification X, y = make_classification(n_samples = 1000, n_features = 20, n_informative = 15, n_redundant = 5, random_state = 7) # summarize the dataset print(X.