개요 파이참에서 가상환경을 만들어 오라클 연동 예제를 작성한다. 아나콘다, 파이참, 그리고 오라클 설치는 생략한다. 1. 가상환경 활성화 cmd 창에서 가상 환경을 세팅 하도록 한다. (권장: 관리자 실행) 바탕화면에 필자는 python_oracle 폴더를 생성했다. 현재 경로는 아래와 같다. C:\Users\1\Desktop\python_oracle> 먼저 가상환경을 만든다. conda create --name your_env_name python=3.8 . . done # # To activate this environment, use # # $ conda activate python_oracle # # To deactivate an active environment, use # # $ conda deactivate your_env_name 대신 다른 이름으로 설정해도 된다.
머신러닝 전처리 자주하는 안 좋은 습관들 모음 참고 자료: https://scikit-learn.org/stable/common_pitfalls.html Sample 데이터 먼저 가상의 데이터를 하나 생성합니다. from sklearn.datasets import make_regression from sklearn.model_selection import train_test_split random_state = 42 X, y = make_regression(random_state = random_state, n_features = 1, noise = 1) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = random_state) Inconsistent preprocessing 모델을 학습시킬 때 이러한 데이터 변환을 사용하는 경우 테스트 데이터든 프로덕션 시스템의 데이터든 후속 데이터셋에도 사용해야 합니다.
Data Leakage 모형 평가를 하기 전에 전체 데이터셋을 가공 및 변환함. 이를 평가에 반영하면 새로운 데이터를 예측할 때 부정확한 결과를 도출 할 수 있음. 이를 방지 하기 위해서는 training 데이터만 데이터 전처리를 수행하는 것이 바람직함. Data Leakage를 피하기 위해서는 scikit-learn modeling pipeline을 설계해햐 함. 데이터 준비 가상의 데이터를 준비한다. 데이터는 모두 수치형 데이터로 준비했다. from sklearn.datasets import make_classification X, y = make_classification(n_samples = 1000, n_features = 20, n_informative = 15, n_redundant = 5, random_state = 7) # summarize the dataset print(X.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 정리되지 못한 엑셀 파일을 불러와서 하나의 테이블을 만드는 과정을 진행해본다. 위 데이터를 원본 그대로 받아서 pandas 데이터 프레임에 추가한다. A3 셀에 있는 [시·도지사선거][서울특별시][강남구] 분리하여 각 column에 추가한다. 라이브러리 불러오기 3개의 라이브러리를 불러온다. import pandas as pd import openpyxl import os 파일 확인 data 폴더 내 데이터를 확인한다.
인프런 강의 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 공지 Airflow 2.0 원서 나온 것을 공부용으로 활용합니다. Airflow Project 이 책에 나온 내용을 Chapter별로 요약하여 정리하려고 한다. 원서 구매 페이지는 아래와 같다. 구매 페이지: Data Pipelines with Apache Airflow Chapter 1. Apache Airflow Introduction Figure 1.
인프런 강의 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 미니 프로젝트 개요 목적: Airflow와 빅쿼리를 활용하여 ETL 및 대시보드를 만들어보는 과정을 설계 환경: MacOS M1 Part I. Docker and Airflow Docker와 Airflow를 설치 및 실행한다.
필자는 가상환경을 선정하고, 그 위에 도커를 추가로 설치하였다.
개요 psql shell 명령어를 간단히 배우도록 한다. Database, Schema, Table를 생성하도록 한다. 데이터타입에 대해 배우도록 한다. psql Shell 명령어 명령어 설명 \q psql을 종료한다. \l 데이터베이스를 조회한다. \c 입력한 DB로 이동한다. \e 외부편집기로 sql 쿼리 입력 가능 \dt 현재 DB에서 테이블을 확인할 수 있음. 자주 사용하는 명령어이기 때문에 확인한다. DB 및 Table 다루기 콘솔창에서 book 이름의 DB를 생성한다. evan=# CREATE DATABASE book; CREATE DATABASE 그 후, book에 접속한다. evan=# \c book You are now connected to database "book" as user "evan".
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 깃헙 브로그에 동적 시각화를 올리는 방법에 대해 기술한다. 현재까지 찾아낸 것은 이게 최선입니다! 더 나은 것이 있다면 공유 부탁드립니다. (꾸벅) 필수 라이브러리 설치 라이브러리를 설치합니다. Getting Started with Plotly in Python, https://plotly.com/python/getting-started/ Getting Started with Chart Studio in Python, https://plotly.
1줄 요약 CURL 명령어는 진심 매우 좋더라. 동기부여 SQL 강의를 해야 하는데, 그에 맞는 데이터를 찾는 중이었다. SQL 예제와 함께 있는 데이터를 찾던 중, URL로 적힌 CSV 파일을 확인하였다. 이를 직접 Download로 쉽게 받을 수 있을 까 하는 생각에 구글링 몇개 해보였다. 참고자료 StackoverFlow에 다음과 같은 글을 찾았다.
URL: How to download CSV via terminal (SSH)? 참고 소스 코드는 아래와 같다.
-o, --output <file> Write output to <file> instead of stdout.
테이블 생성 및 수정 삭제 pgAdmin4을 활용한 테이블 수정 삭제 Schemas에서 public-Table 마우스 오른쪽 버튼을 누른 뒤 Query Tool을 선택합니다. developers 테이블을 별도로 생성합니다. CREATE TABLE developers ( book_id INTEGER, date DATE, name VARCHAR(80) ) CREATE TABLE Query returned successfully in 65 msec. 이번에는 값을 입력하도록 합니다. INSERT INTO developers VALUES(1, '2019-12-17', '"자바"') 그런데, 작은 따옴표(’)를 넣고 싶을 때는 큰 따옴표(")로 깜사면, 에러가 발생이 됩니다. INSERT INTO developers VALUES(2, '2019-12-17', "'자바'") ERROR: 오류: "'자바'" 이름의 칼럼은 없습니다 LINE 1: INSERT INTO developers VALUES(1, '2019-12-17', "'자바'") ^ SQL state: 42703 Character: 48 이런 경우에는 작은 따옴표를 두번 입혀서 깜사도록 합니다.