개요 연도, 월, 주만 있는 컬럼을 날짜 데이터 타입으로 변경하려면 어떻게 해야할까? 약간의 트릭이 필요하다 데이터 생성 가상의 데이터를 생성한다. import pandas as pd data = [ {"year": 2020, "month": 1, "week": 2, "company" : "A회사", "revenue_pct" : 49}, {"year": 2020, "month": 1, "week": 2, "company" : "B회사", "revenue_pct" : 51}, {"year": 2021, "month": 1, "week": 2, "company" : "A회사", "revenue_pct" : 37}, {"year": 2021, "month": 1, "week": 2, "company" : "B회사", "revenue_pct" : 63}, {"year": 2022, "month": 12, "week": 1, "company" : "A회사", "revenue_pct" : 70}, {"year": 2022, "month": 12, "week": 1, "company" : "B회사", "revenue_pct" : 30}, ] df = pd.
이상값의 정의 다소 주관적이며(Somewhat Subjective), 특정 분포의 중심경향성, 퍼진 정도와 형태에 따라 밀접한 관련이 있다. 평균에서 표준편차보다 몇 배 더 떨어져 있다거나, 즉, 정규분포를 이루고 있지 않을 때 왜도 또는 첨도가 발생할 때 균등분포(Uniform Distribution)는, 발생할 확률이 모두 같다. 만약, 확진자수가 최소 1부터 최대 10,000,000까지 균등하게 분포한다면, 어떤 값도 이상값으로 고려하지 않는다. 이상값을 파악하려면, 반드시, 각 변수의 분포를 먼저 이해해야 한다. 라이브러리 및 데이터 불러오기 실습을 위한 데이터를 불러온다. import numpy as np import matplotlib.
데이터 가져오기 pandas, numpy, matplotlib 라이브러리를 불러온다. 데이터를 불러온다. 데이터는 https://ourworldindata.org/coronavirus-source-data 에서 가져왔다. 2020년 6월 1일 기준이다. import pandas as pd covidtotals = pd.read_csv("data/covidtotalswithmissings.csv") print(covidtotals.head()) iso_code lastdate location total_cases total_deaths \ 0 AFG 2020-06-01 Afghanistan 15205 257 1 ALB 2020-06-01 Albania 1137 33 2 DZA 2020-06-01 Algeria 9394 653 3 AND 2020-06-01 Andorra 764 51 4 AGO 2020-06-01 Angola 86 4 total_cases_pm total_deaths_pm population pop_density median_age \ 0 390.589 6.602 38928341.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 정리되지 못한 엑셀 파일을 불러와서 하나의 테이블을 만드는 과정을 진행해본다. 위 데이터를 원본 그대로 받아서 pandas 데이터 프레임에 추가한다. A3 셀에 있는 [시·도지사선거][서울특별시][강남구] 분리하여 각 column에 추가한다. 라이브러리 불러오기 3개의 라이브러리를 불러온다. import pandas as pd import openpyxl import os 파일 확인 data 폴더 내 데이터를 확인한다.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 1줄 요약 Dictionary를 활용한 값 변경의 속도가 훨씬 빠르다. 데이터 불러오기 diamonds 데이터셋을 불러온다. import pandas as pd import seaborn as sns diamonds = sns.load_dataset('diamonds') print(diamonds) carat cut color clarity depth table price x y z 0 0.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 1줄 요약 값을 변경할 때에는 .replace 메서드를 사용합니다. 개요 Replace 속도를 측정해보자. 이번에는 multiple 값을 변경하는 방법에 대해 알아봅니다. 비교 1 .loc vs .replace 값을 바꾸는 방법은 다음과 같다. data['column'].loc[data['column'] == 'Old Value'] = 'New Value' import pandas as pd import seaborn as sns diamonds = sns.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 loc and Replace 속도를 비교 측정해본다.. 방법 1. .loc vs .replace 값을 바꾸는 방법은 다음과 같다. data['column'].loc[data['column'] == 'Old Value'] = 'New Value' import pandas as pd import seaborn as sns diamonds = sns.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 1줄 요약 .loc[]와 .iloc[] 인덱스의 속도 차이를 측정해본다. 개요 시간이 허락한다면, Pandas 속도를 비교하는 게시글을 자주 작성하려고 한다. Pandas가 상대적으로 속도가 느리기 때문에, 조금 더 효율적인 코드를 작성하는 쪽에 초점을 맞춰본다. .loc[] : index name locator를 의미한다.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 문제 개요 Kaggle 데이터 New York City Taxi Fare Prediction 데이터를 구글 코랩에서 Loading 하는 중 메모리 문제가 발생함 계통추출(Systematic Sampling)을 통해 데이터를 불러오기로 함 예제 실습 아래 예제를 통해서 실제로 데이터가 줄어드는지 확인을 해본다.
강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 List는 파이썬 데이터 타입의 기본 자료형이다. Pandas 데이터 분석을 위한 기본적인 자료형이다. List에서 Pandas로 변환하는 작업의 다양한 방법을 활용해본다. 방법 1. 기초 List를 생성한 후, 데이터프레임으로 변환한다. 여기에서는 column과 index값을 확인해본다. import pandas as pd lst = ["Korea", "Japan", "USA", "China", "Russia"] data = pd.