Python

Kibana Installation

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 Elastic Search는 GUI를 제공하지 않고 API만 제공한다. 따라서, 시각화 도구인 키바나를 GUI로 사용하도록 하는 것이 특징이다. Elastic Search 설치는 Elastic Search Engine Installation에서 확인한다. 즉, 다시 말하면 Elastic Search 는 API 데이터만 제공할 뿐이고, 이를 가시적으로 보여주기 위해서는 Kibana를 설치해야 한다는 뜻이다.

Elastic Search Engine Installation

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 검색 엔진을 말한다. Mac에서 설치하는 과정을 진행한다. 가상 환경은 virtualenv 를 통해서 진행한다. 참조: https://lee-mandu.tistory.com/517?category=838684 그 후에 가상 환경에 접속한다. 설치 각 OS별 설치 과정은 해당 URL에서 참조할 수 있다. URL: https://www.elastic.co/guide/en/elasticsearch/reference/current/install-elasticsearch.html MacOS: https://www.

Apache Airflow Installation

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 NiFi와 같은 용도의 소프트웨어이며, 현재 가장 인기 있는 오픈소스 데이터 파이프라인 도구라고 할 수 있다. 보통은 시스템에 경로를 설정한다. 그런데, 본 장에서는 가상환경 설정 후 진행하는 것으로 했다. 가상 환경은 virtualenv 를 통해서 진행한다.

Apache NiFi Installation

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 데이터 엔지니어링에 필요한 기본적인 인프라를 설치 진행하는 튜토리얼을 만들었다. 기본적으로 교재에 충실하지만, 약 1년전에 쓰인 책이라, 최신 버전으로 업그레이드 하였다. Apache NiFi 설치과정 먼저 웹사이트에 방문하여 필요한 파일을 다운로드 받는다. URL: https://nifi.apache.org/download.html wget을 이용해서 NiFi를 현재 디렉터리에 내려받는다.

LSTM을 활용한 주식가격 예측

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 [비전공자 대환영] 캐글 데이터를 활용한 Optuna with MLFlow - 캐글다지기 머신러닝 하이퍼파라미터 튜닝 등을 배우고 싶다면 다음 강의를 참고하세요. LSTM과 RNN의 개요 RNN은 자연어처리에서 사용되는 대표적인 알고리즘 순환신경망으로 표현됨 활용범위: 음성 인식, 언어 모델링, 번역, 이미지 주석 생성 Long Short-term Memory로 1997년에 소개되었음(Hochreiter and Schmidhuber, 1997).

In ML, Data Leakage - 2

머신러닝 전처리 자주하는 안 좋은 습관들 모음 참고 자료: https://scikit-learn.org/stable/common_pitfalls.html Sample 데이터 먼저 가상의 데이터를 하나 생성합니다. from sklearn.datasets import make_regression from sklearn.model_selection import train_test_split random_state = 42 X, y = make_regression(random_state = random_state, n_features = 1, noise = 1) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = random_state) Inconsistent preprocessing 모델을 학습시킬 때 이러한 데이터 변환을 사용하는 경우 테스트 데이터든 프로덕션 시스템의 데이터든 후속 데이터셋에도 사용해야 합니다.

In ML, Data Leakage - 1

Data Leakage 모형 평가를 하기 전에 전체 데이터셋을 가공 및 변환함. 이를 평가에 반영하면 새로운 데이터를 예측할 때 부정확한 결과를 도출 할 수 있음. 이를 방지 하기 위해서는 training 데이터만 데이터 전처리를 수행하는 것이 바람직함. Data Leakage를 피하기 위해서는 scikit-learn modeling pipeline을 설계해햐 함. 데이터 준비 가상의 데이터를 준비한다. 데이터는 모두 수치형 데이터로 준비했다. from sklearn.datasets import make_classification X, y = make_classification(n_samples = 1000, n_features = 20, n_informative = 15, n_redundant = 5, random_state = 7) # summarize the dataset print(X.

(Python-Plotly) Plotly 그래프 깃헙 블로그에 올리기

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 깃헙 브로그에 동적 시각화를 올리는 방법에 대해 기술한다. 현재까지 찾아낸 것은 이게 최선입니다! 더 나은 것이 있다면 공유 부탁드립니다. (꾸벅) 필수 라이브러리 설치 라이브러리를 설치합니다. Getting Started with Plotly in Python, https://plotly.com/python/getting-started/ Getting Started with Chart Studio in Python, https://plotly.

[Python] 이미지 데이터 입출력

1줄 요약 OpenCV를 활용한 다양한 이미지 입출력에 대해 배우도록 한다. Reading/Writing an image file 이미지 관련 I/O BMP, PNG, JPEG, and TIFF also supported. import numpy as np img = np.zeros((3, 3), dtype=np.uint8) img array([[0, 0, 0], [0, 0, 0], [0, 0, 0]], dtype=uint8) 각 픽셀은 8비트 int로 구성되어 있음. 각 픽셀의 범위는 0-255, 0은 검은색, 255는 흰색을 의미함. import cv2 img = cv2.cvtColor(img, cv2.COLOR_GRAY2BGR) img array([[[0, 0, 0], [0, 0, 0], [0, 0, 0]], [[0, 0, 0], [0, 0, 0], [0, 0, 0]], [[0, 0, 0], [0, 0, 0], [0, 0, 0]]], dtype=uint8) 3차원 배열을 의미.

Pandas 속도 비교 - with or without Dictionary

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 1줄 요약 Dictionary를 활용한 값 변경의 속도가 훨씬 빠르다. 데이터 불러오기 diamonds 데이터셋을 불러온다. import pandas as pd import seaborn as sns diamonds = sns.load_dataset('diamonds') print(diamonds) carat cut color clarity depth table price x y z 0 0.