Pandas sort_values()

Page content

강의 홍보

I. Overview

sort_values() 함수는 일종의 데이터의 정렬과 연관이 있다. 어려운 내용은 아니기 때문에 빠르게 소스 코드 구현 및 확인 하도록 한다.

II. Sample Tutorial

엑셀로 된 ticket_sales 데이터에서 ticket_quantity가 가장 많이 팔린 영화 Top3를 구하는 소스코드를 구해본다.

import pandas as pd

url = 'https://github.com/chloevan/datasets/raw/master/entertainment/movie_ticket_sales.xlsx'
sales = pd.read_excel(url)
print(sales.head())
          theater_name                  movie_title ticket_type  \
0     Sumdance Cinemas                Harry Plotter      senior   
1  The Empirical House  10 Things I Hate About Unix       child   
2  The Empirical House         The Seaborn Identity       adult   
3     Sumdance Cinemas  10 Things I Hate About Unix       adult   
4  The Empirical House                Mamma Median!      senior   

   ticket_quantity  
0                4  
1                2  
2                4  
3                2  
4                2  

데이터가 정상적으로 수집되었다면, 이제 빠르게 Top3 데이터를 추출하도록 해보자. 소스코드가 어렵지는 않으니, 따라하도록 해본다.

sales_sorted = sales.sort_values('ticket_quantity', ascending=False)
sales_sorted = sales_sorted.reset_index(drop=True)

# Top3에 해당하는 행을 출력한다. 
print(sales_sorted.head(3))
                      theater_name           movie_title ticket_type  \
0                 Sumdance Cinemas         Harry Plotter      senior   
1                        The Frame        Kung Fu pandas       child   
2  Richie's Famous Minimax Theatre  The Seaborn Identity       adult   

   ticket_quantity  
0                4  
1                4  
2                4  

위 소스코드에서 중요한 것은 sort_values() 안에서 해당 Column값을 입력한 후ascending = False를 하게 되면 내림차순으로 정렬이 된다. 이러한 방식을 통해서 행을 출력할 수 있다.

매우 쉽죠?