<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Machine Learning Project on Data Science | DSChloe</title>
    <link>https://dschloe.github.io/categories/machine-learning-project/</link>
    <description>Recent content in Machine Learning Project on Data Science | DSChloe</description>
    <generator>Hugo</generator>
    <language>en-US</language>
    <lastBuildDate>Mon, 27 Jul 2020 00:00:30 +0900</lastBuildDate>
    <atom:link href="https://dschloe.github.io/categories/machine-learning-project/rss.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>데이콘 대회 참여 - 제주 신용카드 데이터 경진대회 피벗테이블 작성</title>
      <link>https://dschloe.github.io/programming/2020/07/02_ml_simple_tutorial/</link>
      <pubDate>Mon, 27 Jul 2020 00:00:30 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2020/07/02_ml_simple_tutorial/</guid>
      <description>&lt;h2 id=&#34;강의-홍보&#34;&gt;강의 홍보&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;취준생을 위한 강의를 제작하였습니다.&lt;/li&gt;&#xA;&lt;li&gt;본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;code&gt;스타벅스 아이스 아메리카노를 선물&lt;/code&gt;로 보내드리겠습니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://www.inflearn.com/course/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-%EC%BA%90%EA%B8%80%EC%9E%85%EB%AC%B8?inst=46ae3c78&#34;&gt;[비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기&lt;/a&gt;&#xA;&lt;img src=&#34;https://dschloe.github.io/img/lecture_ad/lecture_ad_01.png&#34; alt=&#34;&#34;&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;공지&#34;&gt;공지&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;본 포스트는 필자의 수업을 듣는 사람들을 위해 작성하였습니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;i-구글-드라이브와-colab과-연동&#34;&gt;I. 구글 드라이브와 Colab과 연동&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;구글 드라이브와 Colab과 연동하면 보다 쉽게 데이터에 접근할 수 있다.&lt;/li&gt;&#xA;&lt;li&gt;구글 인증만 하면 된다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Google Drive와 마운트&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; google.colab &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; drive&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;ROOT &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;/content/drive&amp;#39;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;drive&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;mount(ROOT)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;1-데이터-다운로드&#34;&gt;(1) 데이터 다운로드&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;제주 신용카드 데이터를 다운로드 받는다. (회원가입 필수)&lt;/li&gt;&#xA;&lt;li&gt;웹사이트: &lt;a href=&#34;https://dacon.io/competitions/official/235615/data/&#34;&gt;제주 신용카드 빅데이터 경진대회&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;2-구글-드라이브에-다운로드-받은-폴더를-올린다&#34;&gt;(2) 구글 드라이브에 다운로드 받은 폴더를 올린다.&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;이 때, 경로통일을 위해 &lt;code&gt;Colab Notebooks/python_elice/dacon/data&lt;/code&gt;로 경로 지정을 한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Project Folder 연결&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; os.path &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; join  &#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;MY_GOOGLE_DRIVE_PATH &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;My Drive/Colab Notebooks/python_elice/dacon/data&amp;#39;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;PROJECT_PATH &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; join(ROOT, MY_GOOGLE_DRIVE_PATH)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(PROJECT_PATH)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;/content/drive/My Drive/Colab Notebooks/python_elice/dacon/data&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;아래 코드를 반드시 실행시켜야 해당 경로로 이동된다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;%&lt;/span&gt;cd &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;{PROJECT_PATH}&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;/content/drive/My Drive/Colab Notebooks/python_elice/dacon/data&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;실제 업로드된 데이터가 있는지 확인한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;!&lt;/span&gt;ls&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;201901-202003.csv  submission.csv&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;만약 에러가 발생이 되면 경로가 잘못 지정된 것이니, 폴더 경로를 재확인한다.&lt;/li&gt;&#xA;&lt;li&gt;경로에러가 발생할 시, 숙련자는 수정이 바로 가능하지만, 비숙련자는 가급적 &lt;code&gt;[런타임 초기화]&lt;/code&gt;를 클릭한 후, 처음부터 다시 실행시키는 것을 추천한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;3-데이터-불러오기&#34;&gt;(3) 데이터 불러오기&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;지난주간 과제로 내주었던 판다스 데이터를 불러오도록 한다.&lt;/li&gt;&#xA;&lt;li&gt;시간이 다소 소요될 수 있다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; pandas &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; pd&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;train &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;read_csv(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;201901-202003.csv&amp;#34;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;info()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;&amp;lt;class &#39;pandas.core.frame.DataFrame&#39;&amp;gt;&#xA;RangeIndex: 24697792 entries, 0 to 24697791&#xA;Data columns (total 12 columns):&#xA; #   Column        Dtype &#xA;---  ------        ----- &#xA; 0   REG_YYMM      int64 &#xA; 1   CARD_SIDO_NM  object&#xA; 2   CARD_CCG_NM   object&#xA; 3   STD_CLSS_NM   object&#xA; 4   HOM_SIDO_NM   object&#xA; 5   HOM_CCG_NM    object&#xA; 6   AGE           object&#xA; 7   SEX_CTGO_CD   int64 &#xA; 8   FLC           int64 &#xA; 9   CSTMR_CNT     int64 &#xA; 10  AMT           int64 &#xA; 11  CNT           int64 &#xA;dtypes: int64(6), object(6)&#xA;memory usage: 2.2+ GB&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h3 id=&#34;4-데이터-샘플링&#34;&gt;(4) 데이터 샘플링&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;전체 데이터를 시각화 등 사용하면 시각화 시, 다소 느리게 출력될 수 있으니, 연습 차원에서는 가급적 샘플링 기법을 적용해서 데이터를 재정한다.&lt;/li&gt;&#xA;&lt;li&gt;약 &lt;code&gt;1000&lt;/code&gt;개의 데이터만 객체로 저장한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;sample_train &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sample(n&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;100000&lt;/span&gt;, random_state&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;&#xA;&lt;li&gt;원 데이터와 샘플 데이터의 행의 크기를 비교한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;len(train)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;24697792&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;len(sample_train)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;100000&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;물론, 위 샘플을 조금 늘려도 좋긴하지만, 가급적 시각화 코드가 모두 작성이 된 이후에 해보는 것을 추천한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;ii-과제---피벗테이블&#34;&gt;II. 과제 - 피벗테이블&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;판다스 패키지를 활용한다.&lt;/li&gt;&#xA;&lt;li&gt;&lt;code&gt;AMT&lt;/code&gt;는 매출 데이터이다.&lt;/li&gt;&#xA;&lt;li&gt;과제 1. 시도별 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;li&gt;과제 2. 업종별 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;li&gt;마지막 과제 3. 시도별-업종별 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;li&gt;(옵션), 날짜별로 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;공통-판다스-피벗-테이블&#34;&gt;(공통) 판다스 피벗 테이블&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;가장 좋은 교재는 메뉴얼이다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html&#34;&gt;pivot_table&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;주요 파라미터는 다음과 같다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;data: DataFrame&lt;/li&gt;&#xA;&lt;li&gt;values: Column to aggregate&lt;/li&gt;&#xA;&lt;li&gt;index: column, array or list&lt;/li&gt;&#xA;&lt;li&gt;aggfunc: function, list of functions, dict, default numpy.mean&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;1-시도별-매출-데이터&#34;&gt;(1) 시도별 매출 데이터&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;시도별 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;pivot_table(sample_train,                        &lt;span style=&#34;color:#75715e&#34;&gt;# 데이터&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;               index&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;CARD_SIDO_NM&amp;#39;&lt;/span&gt;,                &lt;span style=&#34;color:#75715e&#34;&gt;# 기준변수&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;               values &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;AMT&amp;#39;&lt;/span&gt;,                      &lt;span style=&#34;color:#75715e&#34;&gt;# 타겟변수&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;               aggfunc&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;sum&amp;#34;&lt;/span&gt;)                       &lt;span style=&#34;color:#75715e&#34;&gt;# 산술식&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;&#xA;&lt;li&gt;결과를 확인한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;2-업종별-매출-데이터의-피벗테이블&#34;&gt;(2) 업종별 매출 데이터의 피벗테이블&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;이번에는 업종별 피벗테이블을 작성해본다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;pivot_table(sample_train,                        &lt;span style=&#34;color:#75715e&#34;&gt;# 데이터&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;               index&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;STD_CLSS_NM&amp;#39;&lt;/span&gt;,                 &lt;span style=&#34;color:#75715e&#34;&gt;# 기준변수&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;               values &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;AMT&amp;#39;&lt;/span&gt;,                      &lt;span style=&#34;color:#75715e&#34;&gt;# 타겟변수&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;               aggfunc&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;sum&amp;#34;&lt;/span&gt;)                       &lt;span style=&#34;color:#75715e&#34;&gt;# 산술식&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;&#xA;&lt;li&gt;결과를 확인한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;3-시도별-업종별-매출-데이터의-피벗테이블&#34;&gt;(3) 시도별-업종별 매출 데이터의 피벗테이블&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;이 때에는 피벗테이블에서 상위 5개의 데이터만 출력하도록 한다.&lt;/li&gt;&#xA;&lt;li&gt;표시될 행이 많아야 하기 때문에 아래와 같이 &lt;code&gt;setting&lt;/code&gt;을 한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;set_option(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;display.max_rows&amp;#39;&lt;/span&gt;, &lt;span style=&#34;color:#66d9ef&#34;&gt;None&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;set_option(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;display.max_columns&amp;#39;&lt;/span&gt;, &lt;span style=&#34;color:#66d9ef&#34;&gt;None&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;set_option(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;display.width&amp;#39;&lt;/span&gt;, &lt;span style=&#34;color:#66d9ef&#34;&gt;None&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;set_option(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;display.max_colwidth&amp;#39;&lt;/span&gt;, &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pivoted &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;pivot_table(sample_train,                                   &#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;                         index&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;[&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;CARD_SIDO_NM&amp;#39;&lt;/span&gt;, &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;STD_CLSS_NM&amp;#39;&lt;/span&gt;],          &#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;                         values &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;AMT&amp;#39;&lt;/span&gt;,                               &#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;                         aggfunc&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;sum&amp;#34;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pivoted\&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sort_values([&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;CARD_SIDO_NM&amp;#39;&lt;/span&gt;, &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;AMT&amp;#39;&lt;/span&gt;], ascending&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;[&lt;span style=&#34;color:#66d9ef&#34;&gt;True&lt;/span&gt;, &lt;span style=&#34;color:#66d9ef&#34;&gt;False&lt;/span&gt;])\&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;groupby(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;CARD_SIDO_NM&amp;#39;&lt;/span&gt;)&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;head(&lt;span style=&#34;color:#ae81ff&#34;&gt;5&lt;/span&gt;)\&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;reset_index()\&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;set_index([&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;CARD_SIDO_NM&amp;#39;&lt;/span&gt;,&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;STD_CLSS_NM&amp;#39;&lt;/span&gt;])&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;4-옵션-날짜별-매출-데이터의-피벗테이블&#34;&gt;(4) 옵션-날짜별 매출 데이터의 피벗테이블&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;이번에는 날짜별 매출 데이터의 피벗테이블 작성&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;pivot_table(sample_train,                        &lt;span style=&#34;color:#75715e&#34;&gt;# 데이터&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;               index&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;REG_YYMM&amp;#39;&lt;/span&gt;,                    &lt;span style=&#34;color:#75715e&#34;&gt;# 기준변수&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;               values &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;AMT&amp;#39;&lt;/span&gt;,                      &lt;span style=&#34;color:#75715e&#34;&gt;# 타겟변수&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;               aggfunc&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;sum&amp;#34;&lt;/span&gt;)                       &lt;span style=&#34;color:#75715e&#34;&gt;# 산술식&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id=&#34;iii-과제---시각화&#34;&gt;III. 과제 - 시각화&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;seaborn 패키지를 활용하여 시각화를 작성한다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;한글 그래프가 깨져서 나올 것이다. (해결방안 참조: &lt;a href=&#34;https://chloevan.github.io/python/dacon/jeju2020/10_data_visualisation/&#34;&gt;데이콘 대회 참여 - 10 데이터 시각화&lt;/a&gt;)&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;위 코드를 활용해도 좋다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;1-월별-막대그래프&#34;&gt;(1) 월별 막대그래프&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;간단한 예제로 옵션-날짜별 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;pivot_table(sample_train, index&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;REG_YYMM&amp;#39;&lt;/span&gt;, values &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;AMT&amp;#39;&lt;/span&gt;, aggfunc&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;sum&amp;#34;&lt;/span&gt;)&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;plot(kind&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;bar&amp;#39;&lt;/span&gt;)                   &#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;img src=&#34;https://dschloe.github.io/img/programming/2020/07/02_ml_simple_tutorial/output_33_1.png&#34; alt=&#34;png&#34;&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>데이콘 대회 참여 - 제주 신용카드 데이터 경진대회 Colab with Drive</title>
      <link>https://dschloe.github.io/programming/2020/07/01_ml_simple_tutorial/</link>
      <pubDate>Mon, 20 Jul 2020 18:10:30 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2020/07/01_ml_simple_tutorial/</guid>
      <description>&lt;h2 id=&#34;공지&#34;&gt;공지&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;본 포스트는 필자의 수업을 듣는 사람들을 위해 작성하였습니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;i-구글-드라이브와-colab과-연동&#34;&gt;I. 구글 드라이브와 Colab과 연동&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;구글 드라이브와 Colab과 연동하면 보다 쉽게 데이터에 접근할 수 있다.&lt;/li&gt;&#xA;&lt;li&gt;구글 인증만 하면 된다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Google Drive와 마운트&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; google.colab &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; drive&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;ROOT &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;/content/drive&amp;#39;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;drive&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;mount(ROOT)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&amp;amp;redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&amp;amp;response_type=code&amp;amp;scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly&#xA;&#xA;Enter your authorization code:&#xA;··········&#xA;Mounted at /content/drive&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h3 id=&#34;1-데이터-다운로드&#34;&gt;(1) 데이터 다운로드&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;제주 신용카드 데이터를 다운로드 받는다. (회원가입 필수)&lt;/li&gt;&#xA;&lt;li&gt;웹사이트: &lt;a href=&#34;https://dacon.io/competitions/official/235615/data/&#34;&gt;제주 신용카드 빅데이터 경진대회&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;2-구글-드라이브에-다운로드-받은-폴더를-올린다&#34;&gt;(2) 구글 드라이브에 다운로드 받은 폴더를 올린다.&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;이 때, 경로통일을 위해 &lt;code&gt;Colab Notebooks/python_elice/dacon/data&lt;/code&gt;로 경로 지정을 한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Project Folder 연결&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; os.path &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; join  &#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;MY_GOOGLE_DRIVE_PATH &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;My Drive/Colab Notebooks/python_elice/dacon/data&amp;#39;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;PROJECT_PATH &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; join(ROOT, MY_GOOGLE_DRIVE_PATH)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(PROJECT_PATH)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;/content/drive/My Drive/Colab Notebooks/python_elice/dacon/data&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;아래 코드를 반드시 실행시켜야 해당 경로로 이동된다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;%&lt;/span&gt;cd &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;{PROJECT_PATH}&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;/content/drive/My Drive/Colab Notebooks/python_elice/dacon/data&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;실제 업로드된 데이터가 있는지 확인한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;!&lt;/span&gt;ls&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;201901-202003.csv  submission.csv&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;만약 에러가 발생이 되면 경로가 잘못 지정된 것이니, 폴더 경로를 재확인한다.&lt;/li&gt;&#xA;&lt;li&gt;경로에러가 발생할 시, 숙련자는 수정이 바로 가능하지만, 비숙련자는 가급적 &lt;code&gt;[런타임 초기화]&lt;/code&gt;를 클릭한 후, 처음부터 다시 실행시키는 것을 추천한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;3-데이터-불러오기&#34;&gt;(3) 데이터 불러오기&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;지난주간 과제로 내주었던 판다스 데이터를 불러오도록 한다.&lt;/li&gt;&#xA;&lt;li&gt;시간이 다소 소요될 수 있다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; pandas &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; pd&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;train &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;read_csv(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;201901-202003.csv&amp;#34;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;info()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;&amp;lt;class &#39;pandas.core.frame.DataFrame&#39;&amp;gt;&#xA;RangeIndex: 24697792 entries, 0 to 24697791&#xA;Data columns (total 12 columns):&#xA; #   Column        Dtype &#xA;---  ------        ----- &#xA; 0   REG_YYMM      int64 &#xA; 1   CARD_SIDO_NM  object&#xA; 2   CARD_CCG_NM   object&#xA; 3   STD_CLSS_NM   object&#xA; 4   HOM_SIDO_NM   object&#xA; 5   HOM_CCG_NM    object&#xA; 6   AGE           object&#xA; 7   SEX_CTGO_CD   int64 &#xA; 8   FLC           int64 &#xA; 9   CSTMR_CNT     int64 &#xA; 10  AMT           int64 &#xA; 11  CNT           int64 &#xA;dtypes: int64(6), object(6)&#xA;memory usage: 2.2+ GB&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h3 id=&#34;4-데이터-샘플링&#34;&gt;(4) 데이터 샘플링&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;전체 데이터를 시각화 등 사용하면 시각화 시, 다소 느리게 출력될 수 있으니, 연습 차원에서는 가급적 샘플링 기법을 적용해서 데이터를 재정한다.&lt;/li&gt;&#xA;&lt;li&gt;약 &lt;code&gt;1000&lt;/code&gt;개의 데이터만 객체로 저장한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;sample_train &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sample(n&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1000&lt;/span&gt;, random_state&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;&#xA;&lt;li&gt;원 데이터와 샘플 데이터의 행의 크기를 비교한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;len(train)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;24697792&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;len(sample_train)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;1000&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;물론, 위 샘플을 조금 늘려도 좋긴하지만, 가급적 시각화 코드가 모두 작성이 된 이후에 해보는 것을 추천한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;ii-과제---피벗테이블&#34;&gt;II. 과제 - 피벗테이블&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;판다스 패키지를 활용한다.&lt;/li&gt;&#xA;&lt;li&gt;&lt;code&gt;AMT&lt;/code&gt;는 매출 데이터이다.&lt;/li&gt;&#xA;&lt;li&gt;과제 1. 시도별 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;li&gt;과제 2. 업종별 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;li&gt;마지막 과제 3. 시도별-업종별 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;li&gt;(옵션), 날짜별로 매출 데이터의 피벗테이블을 작성한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;iii-과제---시각화&#34;&gt;III. 과제 - 시각화&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;seaborn 패키지를 활용하여 시각화를 작성한다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;한글 그래프가 깨져서 나올 것이다. (해결방안 참조: &lt;a href=&#34;https://chloevan.github.io/python/dacon/jeju2020/10_data_visualisation/&#34;&gt;데이콘 대회 참여 - 10 데이터 시각화&lt;/a&gt;)&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;위 코드를 활용해도 좋다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;iv-분석-report-작성&#34;&gt;IV. 분석 Report 작성&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;피벗테이블과 시각화를 근거로 간단하게 분석 보고서를 작성한다.&lt;/li&gt;&#xA;&lt;li&gt;양식은 자유롭다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;굳이 참고한다면, 코로나 경제 관련 기사를 참조한다.&lt;/li&gt;&#xA;&lt;li&gt;예) &lt;a href=&#34;https://www.lkp.news/mobile/article.html?no=8874&#34;&gt;경기도 코로나19 발생 이후 신용카드 매출액 전년 동기 대비 1조 8,821억 감소&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;</description>
    </item>
    <item>
      <title>데이콘 대회 참여 - 03 데이터 샘플링과 종속변수 로그변환</title>
      <link>https://dschloe.github.io/programming/2020/06/03_log_transformation_gbm/</link>
      <pubDate>Mon, 29 Jun 2020 23:01:47 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2020/06/03_log_transformation_gbm/</guid>
      <description>&lt;h2 id=&#34;공지&#34;&gt;공지&lt;/h2&gt;&#xA;&lt;p&gt;제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.&lt;/p&gt;&#xA;&lt;h2 id=&#34;사전작업&#34;&gt;사전작업&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;먼저 구글 코랩 내에서 &lt;code&gt;pandas_profiling&lt;/code&gt;을 확인하기 위해 &lt;code&gt;master.zip&lt;/code&gt;을 설치한다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;ref. &lt;a href=&#34;https://github.com/pandas-profiling/pandas-profiling&#34;&gt;https://github.com/pandas-profiling/pandas-profiling&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;설치가 끝나면 구글코랩에서 런타임 다시 시작 한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;!&lt;/span&gt;pip install https:&lt;span style=&#34;color:#f92672&#34;&gt;//&lt;/span&gt;github&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;com&lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt;pandas&lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;profiling&lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt;pandas&lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;profiling&lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt;archive&lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt;master&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;zip&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;Collecting https://github.com/pandas-profiling/pandas-profiling/archive/master.zip&#xA;  Using cached https://github.com/pandas-profiling/pandas-profiling/archive/master.zip&#xA;.&#xA;.&#xA;.&#xA;Successfully built pandas-profiling&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h2 id=&#34;i-빅쿼리-연동&#34;&gt;I. 빅쿼리 연동&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.&lt;/li&gt;&#xA;&lt;li&gt;빅쿼리에 저장된 데이터를 구글 코랩으로 불러오려면 다음과 같이 진행한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;1-사용자-계정-인증&#34;&gt;(1) 사용자 계정 인증&lt;/h3&gt;&#xA;&lt;p&gt;구글 코랩을 사용해서 인증 절차를 밟도록 한다. 아래 소스코드는 변경시키지 않는다. 아래 절차대로 진행하면 된다. &lt;code&gt;Gmail&lt;/code&gt; 인증 절차와 비슷하다.&lt;/p&gt;</description>
    </item>
    <item>
      <title>데이콘 대회 참여 - 02 GBM을 활용한 머신러닝 예제</title>
      <link>https://dschloe.github.io/programming/2020/06/02_review_gbm/</link>
      <pubDate>Sun, 28 Jun 2020 18:01:47 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2020/06/02_review_gbm/</guid>
      <description>&lt;h2 id=&#34;공지&#34;&gt;공지&lt;/h2&gt;&#xA;&lt;p&gt;제 수업을 듣는 사람들이 계속적으로 실습할 수 있도록 강의 파일을 만들었습니다. 늘 도움이 되기를 바라며. 참고했던 교재 및 Reference는 꼭 확인하셔서 교재 구매 또는 관련 Reference를 확인하시기를 바랍니다.&lt;/p&gt;&#xA;&lt;h2 id=&#34;개요&#34;&gt;개요&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;본 예제에서는 제주 빅데이터 경진대회에서 제공하는 베이스라인 코드를 살려서 작성하였다.&lt;/li&gt;&#xA;&lt;li&gt;처음 대회를 입문하는 데 있어서, 빠르게 제출하는 것에 의미부여를 하기 바란다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;참조: &lt;a href=&#34;https://dacon.io/competitions/official/235615/codeshare/1228&#34;&gt;https://dacon.io/competitions/official/235615/codeshare/1228&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;다만, 데이터를 불러오는 영역 및 머신러닝 모형 알고리즘만 조금 수정하였다.&lt;/li&gt;&#xA;&lt;li&gt;향후 매일 업데이트 하면서 일종의 가이드라인이 되었으면 좋겠다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;i-빅쿼리-연동&#34;&gt;I. 빅쿼리 연동&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;지난 시간에 데이콘에서 내려받은 데이터를 빅쿼리에 넣는 작업을 진행하였다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;참조: &lt;a href=&#34;https://chloevan.github.io/python/dacon/jeju2020/01_dataimport/&#34;&gt;데이콘 대회 참여 - 01 제주시 빅데이터 카드 매출 경진대회 데이터 수집 및 저장&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;빅쿼리에 저장된 데이터를 구글 코랩으로 불러오려면 다음과 같이 진행한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;1-사용자-계정-인증&#34;&gt;(1) 사용자 계정 인증&lt;/h3&gt;&#xA;&lt;p&gt;구글 코랩을 사용해서 인증 절차를 밟도록 한다. 아래 소스코드는 변경시키지 않는다. 아래 절차대로 진행하면 된다. &lt;code&gt;Gmail&lt;/code&gt; 인증 절차와 비슷하다.&lt;/p&gt;</description>
    </item>
    <item>
      <title>데이콘 대회 참여 - 01 제주시 빅데이터 카드 매출 경진대회 데이터 수집 및 저장</title>
      <link>https://dschloe.github.io/programming/2020/06/01_dataimport/</link>
      <pubDate>Tue, 23 Jun 2020 23:10:30 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2020/06/01_dataimport/</guid>
      <description>&lt;h2 id=&#34;i-개요&#34;&gt;I. 개요&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;본 과정은 직업훈련기관 수업의 일환으로 진행하였음&lt;/li&gt;&#xA;&lt;li&gt;수강생들이 기본적으로 어려워하는 클라우드 &lt;code&gt;DB연동&lt;/code&gt;부터 구현하여 빠르게 &lt;code&gt;EDA&lt;/code&gt;를 활용할 수 있도록 진행함&lt;/li&gt;&#xA;&lt;li&gt;&lt;code&gt;DB&lt;/code&gt;는 &lt;code&gt;BigQuery&lt;/code&gt;를 활용함.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;1-대회-참여-및-파일-다운로드-상세&#34;&gt;(1) 대회 참여 및 파일 다운로드 상세&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://dacon.io/&#34;&gt;데이콘&lt;/a&gt;은 국내 빅데이터 경진대회이다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;img src=&#34;https://dschloe.github.io/img/programming/2020/06/01_dataimport/01_tutorial.png#center&#34; alt=&#34;&#34;&gt;&lt;/p&gt;&#xA;&lt;h3 id=&#34;2-대회-개요&#34;&gt;(2) 대회 개요&lt;/h3&gt;&#xA;&lt;p&gt;Ref. &lt;a href=&#34;https://dacon.io/competitions/official/235615/overview/&#34;&gt;https://dacon.io/competitions/official/235615/overview/&lt;/a&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;주제&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;AI 알고리즘 활용 카드 사용 금액 예측&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;목표&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;신용카드 사용 내역 데이터를 활용한 지역별, 업종별 월간 카드 사용 총액 예측&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;배경&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;신용카드 사용량을 분석을 통한  ‘Post COVID-19 시대’ 신용카드 사용량 예측 모델 개발&lt;/li&gt;&#xA;&lt;li&gt;지역 경제 위축 및 중소상공인 경영난 해소를 위한 대책 마련&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;주최/주관&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
