Python

statsmodels를 활용한 회귀분석 (feat. 범주형 데이터)

개요 statsmodels를 활용하여 범주형 데이터가 포함된 회귀식을 산정해본다. 범주형 데이터의 특정 값을 변동하는 방법을 배운다. 더불어서 R로 간단한 회귀식도 만들어보자! 강의소개 인프런에서 Streamlit 관련 강의를 진행하고 있습니다. 인프런 : https://inf.run/YPniH 라이브러리 확인 statsmodels의 라이브러리는 현재 0.14.1 버전이다. 라이브러리 참조 : https://www.statsmodels.org/stable/index.html import statsmodels import seaborn as sns import pandas as pd print(statsmodels.__version__) print(sns.__version__) print(pd.__version__) 0.14.1 0.12.2 1.5.3 데이터 불러오기 seaborn에서 tips 데이터를 불러온다. tips = sns.load_dataset('tips') tips.head() 회귀모형 적합 및 확인 (첫번째 방식) - 이제 회귀모형을 적합해본다.

conda vs virtualenv 라이브러리 관리 비교

개요 파이썬에는 가상환경이 다양하게 존재한다. 이 중, conda와 virtualenv 가상환경에서 라이브러리 관리를 어떻게 하는지 비교를 해보도록 한다. 프로젝트 폴더 생성 폴더명은 virtualTest로 명명했다. Conda 먼저 가상환경을 만들어본다. conda create -n virtualTest python=3.10 conda 가상환경에 접속하는 방법은 다음과 같다. conda activate virtualTest environment.yml 라이브러리 관리를 위해 아래와 같이 샘플 코드를 생성한다. name: virtualTest channels: - defaults dependencies: - python=3.10 - numpy - pandas - pip: - streamlit 실행 코드는 아래와 같다. conda env create -f environment.

Matplotlib & Seaborn with bar chart

개요 본 코드는 다음 유투브 영상에서 다룬 내용 중 다루지 못한 내용을 추가한 블로그입니다. Youtube 유투브 영상은 다음과 같습니다. 전체 강의자료 및 데이터셋은 udemy 또는 inflern에서 확인 가능합니다. 가상의 데이터셋 생성 먼저 라이브러리를 불러온 후, 가상의 데이터셋을 만듭니다. import matplotlib.pyplot as plt import pandas as pd import numpy as np years = [2007, 2008] months = ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12'] np.random.seed(0) # For reproducibility data = { 'year': np.

Exploring Unique Values in DataFrame Object Columns

개요 pandas 데이터프레임의 여러 개체 유형(문자열) 열에서 고유 값을 조사하려면 해당 열을 선택한 다음 unique()를 적용하여 고유 값을 추출한다. 이를 위한 단계별 접근 방식은 다음과 같다. 1단계 : 여러 컬럼 중에서 문자열 컬럼만 추출한다. 2단계 : unique() 함수를 활용하여 unique()값만 가져온다. 3단계 : 결괏값은 dictionary 형태로 담는다. 가상 데이터 생성 임의의 가상 데이터를 생성한다. import pandas as pd data = { 'Name': ['Evan', 'Bob', 'Evan', 'Bob'], 'City': ['New York', 'Los Angeles', 'New York', 'SF'], 'Job': ['Engineer', 'Engineer', 'Engineer', 'Artist'], 'num1' : [1, 2, 3, 4] } df = pd.

빅데이터 분석기사 실기 준비 (작업 제2유형) 준비

개요 작업 2유형(머신러닝)을 보다 쉽게 대비할 수 있도록 튜토리얼을 준비했습니다. 핵심 키워드 : Python 머신러닝은 pipeline 코드로 기억하자 본 코드는 구글 코랩에서 작성하였습니다. 유투브 유투브에서 강의 영상을 시청할 수 있습니다. (구독과 좋아요) 데이터 출처 본 데이터는 K-Data에서 가져왔습니다. 구글 드라이브 연동 데이터를 가져오기 위해 구글 드라이브와 연동합니다. from google.colab import drive drive.mount("/content/drive") Mounted at /content/drive 라이브러리 불러오기 아래 라이브러리들을 모두 암기하시기를 바랍니다. import pandas as pd import numpy as np from sklearn.

Python 설치 Windows 11

개요 Python 설치 과정을 유투브로 정리하였습니다. 본 튜토리얼은 Streamlit으로 프로젝트 한방에 끝내기 with 파이썬(2023, Sara & Evan) 교재를 동영상으로 변환하는 작업의 일환입니다. 유투브

M1 환경설정 XGBoost & LightGBM with Streamlit in Python

개요 M1에서 Python 환경설정을 해본다. XGBoost & LightGBM 및 Streamlit 설치를 진행한다. 아나콘다 설치 m1 버전의 아나콘다를 설치한다. 깃헙 레포 생성 먼저 github repo를 생성한다. Conda 가상환경 설정 git clone 명령어를 통해 repo를 로컬로 다운로드 한다. evan$ git clone https://github.com/yourname/m1_streamlit.git Cloning into 'm1_streamlit'... remote: Enumerating objects: 4, done. remote: Counting objects: 100% (4/4), done. remote: Compressing objects: 100% (3/3), done. remote: Total 4 (delta 0), reused 0 (delta 0), pack-reused 0 Receiving objects: 100% (4/4), done.

Google Colab Plotly Graph 안 보일 때

현상 plotly 라이브러리를 활용하여 Google Colab에서 시각화를 할 때 그래프가 보이지 않는 현상이 존재함 여러 방법론이 등장하지만, 공식문서에 따라서 어떻게 활용하는지 확인하도록 함 Google Colab 먼저 구글 코랩에서 간단한 시각화 코드를 작성하고 코드를 실행한다. import plotly plotly.__version__ # 5.13.1 샘플 코드는 아래와 같음 import plotly.graph_objects as go import pandas as pd temp = pd.DataFrame({ "Fruit": ["Apples", "Oranges", "Bananas", "Apples", "Oranges", "Bananas"], "Contestant": ["Alex", "Alex", "Alex", "Jordan", "Jordan", "Jordan"], "Number Eaten": [2, 1, 3, 1, 3, 2], }) fig = go.

Scrapy Tutorial - 다중페이지 크롤링

개요 이번에는 Scrapy를 통해서 다중 페이지를 크롤링 하도록 한다. Target 페이지 타겟 웹사이트 : https://www.audible.com/search 프로젝트 시작 프로젝트 시작은 다음과 같이 할 수 있다. $ scrapy startproject multiCam_tutorial New Scrapy project 'multiCam_tutorial', using template directory 'C:\Users\j2hoo\OneDrive\Desktop\your_project_folder\venv\Lib\site-packages\scrapy\templates\project', created in: C:\Users\j2hoo\OneDrive\Desktop\your_path\multiCam_tutorial You can start your first spider with: cd multiCam_tutorial scrapy genspider example example.com 해당 multiCam_tutorial 경로에서 다음 명령어를 실행하여 타겟 사이트를 설정한다. $ scrapy genspider audible www.audible.com/search Created spider 'audible' using template 'basic' in module: multiCam_tutorial.

Scrapy Tutorial - 기본편

개요 Scrapy Tutorial 설치 과정 및 기본 크롤링 과정을 살펴본다. 라이브러리 설치 라이브러리 설치는 다음과 같다. pip install scrapy 프로젝트 시작 Django와 비슷하게 터미널 명령어는 startproject라고 입력한다. $ scrapy startproject multiCam_tutorial New Scrapy project 'multiCam_tutorial', using template directory 'C:\Users\j2hoo\OneDrive\Desktop\your_project_folder\venv\Lib\site-packages\scrapy\templates\project', created in: C:\Users\j2hoo\OneDrive\Desktop\your_path\multiCam_tutorial You can start your first spider with: cd multiCam_tutorial scrapy genspider example example.com 파일 구조는 아래와 같이 여러개의 파일로 구성되었다. 타겟 주소는 아래와 같다. 주소 : https://www.worldometers.info/world-population/population-by-country/ $ scrapy genspider worldometer www.