In ML, Data Leakage - 2

머신러닝 전처리 자주하는 안 좋은 습관들 모음 참고 자료: https://scikit-learn.org/stable/common_pitfalls.html Sample 데이터 먼저 가상의 데이터를 하나 생성합니다. from sklearn.datasets import make_regression from sklearn.model_selection import train_test_split random_state = 42 X, y = make_regression(random_state = random_state, n_features = 1, noise = 1) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = random_state) Inconsistent preprocessing 모델을 학습시킬 때 이러한 데이터 변환을 사용하는 경우 테스트 데이터든 프로덕션 시스템의 데이터든 후속 데이터셋에도 사용해야 합니다.

In ML, Data Leakage - 1

Data Leakage 모형 평가를 하기 전에 전체 데이터셋을 가공 및 변환함. 이를 평가에 반영하면 새로운 데이터를 예측할 때 부정확한 결과를 도출 할 수 있음. 이를 방지 하기 위해서는 training 데이터만 데이터 전처리를 수행하는 것이 바람직함. Data Leakage를 피하기 위해서는 scikit-learn modeling pipeline을 설계해햐 함. 데이터 준비 가상의 데이터를 준비한다. 데이터는 모두 수치형 데이터로 준비했다. from sklearn.datasets import make_classification X, y = make_classification(n_samples = 1000, n_features = 20, n_informative = 15, n_redundant = 5, random_state = 7) # summarize the dataset print(X.

엑셀 데이터 가공하기 변환

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 정리되지 못한 엑셀 파일을 불러와서 하나의 테이블을 만드는 과정을 진행해본다. 위 데이터를 원본 그대로 받아서 pandas 데이터 프레임에 추가한다. A3 셀에 있는 [시·도지사선거][서울특별시][강남구] 분리하여 각 column에 추가한다. 라이브러리 불러오기 3개의 라이브러리를 불러온다. import pandas as pd import openpyxl import os 파일 확인 data 폴더 내 데이터를 확인한다.

AirFlow ch01. 개요

인프런 강의 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 공지 Airflow 2.0 원서 나온 것을 공부용으로 활용합니다. Airflow Project 이 책에 나온 내용을 Chapter별로 요약하여 정리하려고 한다. 원서 구매 페이지는 아래와 같다. 구매 페이지: Data Pipelines with Apache Airflow Chapter 1. Apache Airflow Introduction Figure 1.

AirFlow 설치 및 실행 with M1

인프런 강의 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 미니 프로젝트 개요 목적: Airflow와 빅쿼리를 활용하여 ETL 및 대시보드를 만들어보는 과정을 설계 환경: MacOS M1 Part I. Docker and Airflow Docker와 Airflow를 설치 및 실행한다. 필자는 가상환경을 선정하고, 그 위에 도커를 추가로 설치하였다.

PostgreSQL 기초 1

개요 psql shell 명령어를 간단히 배우도록 한다. Database, Schema, Table를 생성하도록 한다. 데이터타입에 대해 배우도록 한다. psql Shell 명령어 명령어 설명 \q psql을 종료한다. \l 데이터베이스를 조회한다. \c 입력한 DB로 이동한다. \e 외부편집기로 sql 쿼리 입력 가능 \dt 현재 DB에서 테이블을 확인할 수 있음. 자주 사용하는 명령어이기 때문에 확인한다. DB 및 Table 다루기 콘솔창에서 book 이름의 DB를 생성한다. evan=# CREATE DATABASE book; CREATE DATABASE 그 후, book에 접속한다. evan=# \c book You are now connected to database "book" as user "evan".

(Python-Plotly) Plotly 그래프 깃헙 블로그에 올리기

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 깃헙 브로그에 동적 시각화를 올리는 방법에 대해 기술한다. 현재까지 찾아낸 것은 이게 최선입니다! 더 나은 것이 있다면 공유 부탁드립니다. (꾸벅) 필수 라이브러리 설치 라이브러리를 설치합니다. Getting Started with Plotly in Python, https://plotly.com/python/getting-started/ Getting Started with Chart Studio in Python, https://plotly.

File Download VIA SSH Terminal

1줄 요약 CURL 명령어는 진심 매우 좋더라. 동기부여 SQL 강의를 해야 하는데, 그에 맞는 데이터를 찾는 중이었다. SQL 예제와 함께 있는 데이터를 찾던 중, URL로 적힌 CSV 파일을 확인하였다. 이를 직접 Download로 쉽게 받을 수 있을 까 하는 생각에 구글링 몇개 해보였다. 참고자료 StackoverFlow에 다음과 같은 글을 찾았다. URL: How to download CSV via terminal (SSH)? 참고 소스 코드는 아래와 같다. -o, --output <file> Write output to <file> instead of stdout.

PostgreSQL 테이블 생성 예제

테이블 생성 및 수정 삭제 pgAdmin4을 활용한 테이블 수정 삭제 Schemas에서 public-Table 마우스 오른쪽 버튼을 누른 뒤 Query Tool을 선택합니다. developers 테이블을 별도로 생성합니다. CREATE TABLE developers ( book_id INTEGER, date DATE, name VARCHAR(80) ) CREATE TABLE Query returned successfully in 65 msec. 이번에는 값을 입력하도록 합니다. INSERT INTO developers VALUES(1, '2019-12-17', '"자바"') 그런데, 작은 따옴표(’)를 넣고 싶을 때는 큰 따옴표(")로 깜사면, 에러가 발생이 됩니다. INSERT INTO developers VALUES(2, '2019-12-17', "'자바'") ERROR: 오류: "'자바'" 이름의 칼럼은 없습니다 LINE 1: INSERT INTO developers VALUES(1, '2019-12-17', "'자바'") ^ SQL state: 42703 Character: 48 이런 경우에는 작은 따옴표를 두번 입혀서 깜사도록 합니다.

pgAdmin4 GUI installation on MacOS M1

pgAdmin 설치 및 서버 연결 (MacOS) GUI 프로그램을 설치해본다. Windows는 자동으로 설치가 되기 때문에 생략을 한다. 먼저 해당 싸이트에 접속을 합니다. URL: https://www.pgadmin.org/download/ macOS를 클릭한 뒤 다음 화면에서 pgAdmin 4 v5.3 최신버전을 다운로드 받도록 합니다. 프로그램을 설치하면 첫 화면에서 Password를 입력하도록 합니다. 새로운 서버를 생성하여 서버를 등록하도록 합니다. 그 후에 이름은 LocalTest라고 정합니다. 그 후에, username은 postgres를 username으로 입력하고 Postgresql을 설치할 때 설정한 password를 입력합니다. 실제 서버에 연결 되었는지 확인하도록 합니다.