Pythons

Python Dash를 활용한 대시보드에서 엑셀 데이터로 다운로드 받기

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 [대시보드] Dash Project - Excel 다운로드 개요 각 레벨에 따라 달라지는 데이터를 시각화로 표현하고 결과치를 엑셀로 다운로드 받는 기능을 구현한다. 데이터 다운로드 데이터는 로그 분석을 통한 보안 위험도 예측 AI 경진대회 에서 가져왔다. (회원가입 필수) Data: https://dacon.

Python Dash를 활용한 대시보드 만들기 with Heroku

강의 소개 필자의 강의를 소개합니다. 개요 대시보드 프로젝트를 진행한다. Heroku에 배포까지 진행하는 것을 목적으로 한다. 참조: https://realpython.com/python-dash/ 여기에 있는 내용을 최대한 간결하게 한글로 재 작성하였다. 중간에 없는 코드들도 있으니, 가급적 본 소스코드를 활용한다. 1. 데이터 수집 데이터: https://www.kaggle.com/neuromusic/avocado-prices 다운로드 받은 파일은 임의의 폴더 안에 넣습니다. (필자: dashboard-project21) C:\Users\1\Desktop\dashboard-project21>tree /f 폴더 PATH의 목록입니다. 볼륨 일련 번호는 E657-CFA3입니다. C:. │ README.md │ └─data avocado.csv 파일 경로를 주의해서 보도록 합니다. 2. 가상환경 및 라이브러리 설치 conda를 활용하여 가상환경 설정을 합니다.

In ML, Data Leakage - 2

머신러닝 전처리 자주하는 안 좋은 습관들 모음 참고 자료: https://scikit-learn.org/stable/common_pitfalls.html Sample 데이터 먼저 가상의 데이터를 하나 생성합니다. from sklearn.datasets import make_regression from sklearn.model_selection import train_test_split random_state = 42 X, y = make_regression(random_state = random_state, n_features = 1, noise = 1) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = random_state) Inconsistent preprocessing 모델을 학습시킬 때 이러한 데이터 변환을 사용하는 경우 테스트 데이터든 프로덕션 시스템의 데이터든 후속 데이터셋에도 사용해야 합니다.

In ML, Data Leakage - 1

Data Leakage 모형 평가를 하기 전에 전체 데이터셋을 가공 및 변환함. 이를 평가에 반영하면 새로운 데이터를 예측할 때 부정확한 결과를 도출 할 수 있음. 이를 방지 하기 위해서는 training 데이터만 데이터 전처리를 수행하는 것이 바람직함. Data Leakage를 피하기 위해서는 scikit-learn modeling pipeline을 설계해햐 함. 데이터 준비 가상의 데이터를 준비한다. 데이터는 모두 수치형 데이터로 준비했다. from sklearn.datasets import make_classification X, y = make_classification(n_samples = 1000, n_features = 20, n_informative = 15, n_redundant = 5, random_state = 7) # summarize the dataset print(X.

엑셀 데이터 가공하기 변환

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 정리되지 못한 엑셀 파일을 불러와서 하나의 테이블을 만드는 과정을 진행해본다. 위 데이터를 원본 그대로 받아서 pandas 데이터 프레임에 추가한다. A3 셀에 있는 [시·도지사선거][서울특별시][강남구] 분리하여 각 column에 추가한다. 라이브러리 불러오기 3개의 라이브러리를 불러온다. import pandas as pd import openpyxl import os 파일 확인 data 폴더 내 데이터를 확인한다.

(Python-Plotly) Plotly 그래프 깃헙 블로그에 올리기

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 깃헙 브로그에 동적 시각화를 올리는 방법에 대해 기술한다. 현재까지 찾아낸 것은 이게 최선입니다! 더 나은 것이 있다면 공유 부탁드립니다. (꾸벅) 필수 라이브러리 설치 라이브러리를 설치합니다. Getting Started with Plotly in Python, https://plotly.com/python/getting-started/ Getting Started with Chart Studio in Python, https://plotly.

[Python] 이미지 데이터 입출력

1줄 요약 OpenCV를 활용한 다양한 이미지 입출력에 대해 배우도록 한다. Reading/Writing an image file 이미지 관련 I/O BMP, PNG, JPEG, and TIFF also supported. import numpy as np img = np.zeros((3, 3), dtype=np.uint8) img array([[0, 0, 0], [0, 0, 0], [0, 0, 0]], dtype=uint8) 각 픽셀은 8비트 int로 구성되어 있음. 각 픽셀의 범위는 0-255, 0은 검은색, 255는 흰색을 의미함. import cv2 img = cv2.cvtColor(img, cv2.COLOR_GRAY2BGR) img array([[[0, 0, 0], [0, 0, 0], [0, 0, 0]], [[0, 0, 0], [0, 0, 0], [0, 0, 0]], [[0, 0, 0], [0, 0, 0], [0, 0, 0]]], dtype=uint8) 3차원 배열을 의미.

Pandas 속도 비교 - with or without Dictionary

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 1줄 요약 Dictionary를 활용한 값 변경의 속도가 훨씬 빠르다. 데이터 불러오기 diamonds 데이터셋을 불러온다. import pandas as pd import seaborn as sns diamonds = sns.load_dataset('diamonds') print(diamonds) carat cut color clarity depth table price x y z 0 0.

Pandas 속도 비교 - loc vs replace(2)

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 1줄 요약 값을 변경할 때에는 .replace 메서드를 사용합니다. 개요 Replace 속도를 측정해보자. 이번에는 multiple 값을 변경하는 방법에 대해 알아봅니다. 비교 1 .loc vs .replace 값을 바꾸는 방법은 다음과 같다. data['column'].loc[data['column'] == 'Old Value'] = 'New Value' import pandas as pd import seaborn as sns diamonds = sns.

Pandas 속도 비교 - loc vs replace

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 loc and Replace 속도를 비교 측정해본다.. 방법 1. .loc vs .replace 값을 바꾸는 방법은 다음과 같다. data['column'].loc[data['column'] == 'Old Value'] = 'New Value' import pandas as pd import seaborn as sns diamonds = sns.