<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Big Data Analyst Exam on Data Science | DSChloe</title>
    <link>https://dschloe.github.io/categories/big-data-analyst-exam/</link>
    <description>Recent content in Big Data Analyst Exam on Data Science | DSChloe</description>
    <generator>Hugo</generator>
    <language>en-US</language>
    <lastBuildDate>Sun, 15 Feb 2026 01:40:47 +0900</lastBuildDate>
    <atom:link href="https://dschloe.github.io/categories/big-data-analyst-exam/rss.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>빅데이터 분석기사 실기 (Python)</title>
      <link>https://dschloe.github.io/programming/2026/02/ds_certificate/</link>
      <pubDate>Sun, 15 Feb 2026 01:40:47 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2026/02/ds_certificate/</guid>
      <description>&lt;h2 id=&#34;과정-개요&#34;&gt;과정 개요&lt;/h2&gt;&#xA;&lt;p&gt;빅데이터 분석기사 실기 시험을 완벽하게 대비하는 Python 기반 실전 과정입니다.&#xA;실제 시험 환경과 동일한 조건에서 데이터 분석, 모델링, 평가까지 전 과정을 학습합니다.&lt;/p&gt;&#xA;&lt;h2 id=&#34;과정-정보&#34;&gt;과정 정보&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;수강 기간:&lt;/strong&gt; 무제한 (평생 수강)&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;총 학습 시간:&lt;/strong&gt; 약 5시간&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;난이도:&lt;/strong&gt; 초급&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;수강료:&lt;/strong&gt; &lt;strong&gt;₩13,000&lt;/strong&gt; (특별 할인)&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;쿠폰 유효기간:&lt;/strong&gt; 2026년 3월 17일까지&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;쿠폰코드:&lt;/strong&gt; A0A10703D4A8BE7431A7&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;링크:&lt;/strong&gt; &lt;a href=&#34;https://www.udemy.com/course/python-qm/?couponCode=A0A10703D4A8BE7431A7&#34;&gt;https://www.udemy.com/course/python-qm/?couponCode=A0A10703D4A8BE7431A7&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;학습-목표&#34;&gt;학습 목표&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;빅데이터 분석기사 실기 시험의 3가지 유형 완벽 마스터&lt;/li&gt;&#xA;&lt;li&gt;Python 라이브러리(Pandas, NumPy, Scikit-learn)를 활용한 데이터 분석&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;커리큘럼&#34;&gt;커리큘럼&lt;/h2&gt;&#xA;&lt;h3 id=&#34;1단계-작업형-1유형---데이터-전처리&#34;&gt;&lt;strong&gt;1단계: 작업형 1유형 - 데이터 전처리&lt;/strong&gt;&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;데이터 읽기 및 탐색&lt;/li&gt;&#xA;&lt;li&gt;결측치 처리&lt;/li&gt;&#xA;&lt;li&gt;이상치 탐지 및 처리&lt;/li&gt;&#xA;&lt;li&gt;데이터 변환 및 인코딩&lt;/li&gt;&#xA;&lt;li&gt;그룹화 및 집계&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;2단계-작업형-2유형---머신러닝-모델링&#34;&gt;&lt;strong&gt;2단계: 작업형 2유형 - 머신러닝 모델링&lt;/strong&gt;&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;분류 모델 (로지스틱 회귀, 의사결정나무, 랜덤포레스트 등)&lt;/li&gt;&#xA;&lt;li&gt;회귀 모델 (선형회귀, Ridge, Lasso 등)&lt;/li&gt;&#xA;&lt;li&gt;교차 검증 및 하이퍼파라미터 튜닝&lt;/li&gt;&#xA;&lt;li&gt;모델 평가 지표 (정확도, F1-score, ROC-AUC, RMSE 등)&lt;/li&gt;&#xA;&lt;li&gt;예측 결과 제출 형식&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;3단계-작업형-3유형---통계-분석&#34;&gt;&lt;strong&gt;3단계: 작업형 3유형 - 통계 분석&lt;/strong&gt;&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;기술통계 분석&lt;/li&gt;&#xA;&lt;li&gt;가설 검정&lt;/li&gt;&#xA;&lt;li&gt;상관분석 및 회귀분석&lt;/li&gt;&#xA;&lt;li&gt;통계적 유의성 해석&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;실습-환경&#34;&gt;실습 환경&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;&lt;strong&gt;언어:&lt;/strong&gt; Python&lt;/p&gt;</description>
    </item>
    <item>
      <title>빅데이터 분석기사 실기 준비 (작업 제2유형) 준비</title>
      <link>https://dschloe.github.io/programming/2023/11/ds_certificate_type2/</link>
      <pubDate>Sun, 26 Nov 2023 00:40:47 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2023/11/ds_certificate_type2/</guid>
      <description>&lt;h2 id=&#34;개요&#34;&gt;개요&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;작업 2유형(머신러닝)을 보다 쉽게 대비할 수 있도록 튜토리얼을 준비했습니다.&lt;/li&gt;&#xA;&lt;li&gt;핵심 키워드 : Python 머신러닝은 pipeline 코드로 기억하자&lt;/li&gt;&#xA;&lt;li&gt;본 코드는 구글 코랩에서 작성하였습니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;유투브&#34;&gt;유투브&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;유투브에서 강의 영상을 시청할 수 있습니다. (&lt;code&gt;구독&lt;/code&gt;과 &lt;code&gt;좋아요&lt;/code&gt;)&#xA;&lt;div style=&#34;position: relative; padding-bottom: 56.25%; height: 0; overflow: hidden;&#34;&gt;&#xA;      &lt;iframe allow=&#34;accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share; fullscreen&#34; loading=&#34;eager&#34; referrerpolicy=&#34;strict-origin-when-cross-origin&#34; src=&#34;https://www.youtube.com/embed/CuNIhzPtQ1E?autoplay=0&amp;amp;controls=1&amp;amp;end=0&amp;amp;loop=0&amp;amp;mute=0&amp;amp;start=0&#34; style=&#34;position: absolute; top: 0; left: 0; width: 100%; height: 100%; border:0;&#34; title=&#34;YouTube video&#34;&gt;&lt;/iframe&gt;&#xA;    &lt;/div&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;데이터-출처&#34;&gt;데이터 출처&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;본 데이터는 &lt;a href=&#34;https://www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwOTM0M30=&amp;amp;boardKind=notice&#34;&gt;K-Data&lt;/a&gt;에서 가져왔습니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;구글-드라이브-연동&#34;&gt;구글 드라이브 연동&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;데이터를 가져오기 위해 구글 드라이브와 연동합니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; google.colab &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; drive&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;drive&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;mount(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;/content/drive&amp;#34;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;Mounted at /content/drive&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h2 id=&#34;라이브러리-불러오기&#34;&gt;라이브러리 불러오기&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;아래 라이브러리들을 모두 암기하시기를 바랍니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; pandas &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; pd&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; numpy &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; np&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; sklearn.model_selection &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; train_test_split&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; sklearn.preprocessing &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; StandardScaler, OneHotEncoder&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; sklearn.compose &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; ColumnTransformer&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; sklearn.pipeline &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; Pipeline&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;## from sklearn.metrics import make_scorer, mean_squared_error&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;## from sklearn.ensemble import RandomForestRegressor&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; sklearn.metrics &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; roc_auc_score&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; sklearn.ensemble &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; RandomForestClassifier&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id=&#34;데이터-가져오기&#34;&gt;데이터 가져오기&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;구글 드라이브에서 데이터를 가져옵니다.&lt;/li&gt;&#xA;&lt;li&gt;시험장에서는 데이터 가져오기는 자동으로 설정이 되어 있습니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;DATA_PATH &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;/content/drive/MyDrive/Colab Notebooks/2024/빅분기/[Dataset] 작업형 제2유형/&amp;#39;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_test &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;read_csv(DATA_PATH &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;X_test.csv&amp;#34;&lt;/span&gt;, encoding&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;cp949&amp;#39;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_train &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;read_csv(DATA_PATH &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;X_train.csv&amp;#34;&lt;/span&gt;, encoding&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;cp949&amp;#39;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;y_train &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; pd&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;read_csv(DATA_PATH &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;y_train.csv&amp;#34;&lt;/span&gt;, encoding&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;cp949&amp;#39;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(X_test&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;shape, X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;shape, y_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;shape)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;(2482, 10) (3500, 10) (3500, 2)&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h2 id=&#34;데이터-정보-확인하기&#34;&gt;데이터 정보 확인하기&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;분류 문제임을 확인할 수 있다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(y_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;head(&lt;span style=&#34;color:#ae81ff&#34;&gt;3&lt;/span&gt;))&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;   cust_id  gender&#xA;0        0       0&#xA;1        1       0&#xA;2        2       1&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;문자열과 숫자 데이터가 적절하게 섞인 것을 확인할 수 있다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;head(&lt;span style=&#34;color:#ae81ff&#34;&gt;3&lt;/span&gt;))&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;   cust_id      총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수  \&#xA;0        0  68282840  11264000  6860000.0      기타   강남점    19  3.894737   &#xA;1        1   2136000   2136000   300000.0     스포츠   잠실점     2  1.500000   &#xA;2        2   3197000   1639000        NaN  남성 캐주얼   관악점     2  2.000000   &#xA;&#xA;     주말방문비율  구매주기  &#xA;0  0.527027    17  &#xA;1  0.000000     1  &#xA;2  0.000000     1  &#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;info())&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;&amp;lt;class &#39;pandas.core.frame.DataFrame&#39;&amp;gt;&#xA;RangeIndex: 3500 entries, 0 to 3499&#xA;Data columns (total 10 columns):&#xA; #   Column   Non-Null Count  Dtype  &#xA;---  ------   --------------  -----  &#xA; 0   cust_id  3500 non-null   int64  &#xA; 1   총구매액     3500 non-null   int64  &#xA; 2   최대구매액    3500 non-null   int64  &#xA; 3   환불금액     1205 non-null   float64&#xA; 4   주구매상품    3500 non-null   object &#xA; 5   주구매지점    3500 non-null   object &#xA; 6   내점일수     3500 non-null   int64  &#xA; 7   내점당구매건수  3500 non-null   float64&#xA; 8   주말방문비율   3500 non-null   float64&#xA; 9   구매주기     3500 non-null   int64  &#xA;dtypes: float64(3), int64(5), object(2)&#xA;memory usage: 273.6+ KB&#xA;None&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(y_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;info())&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;&amp;lt;class &#39;pandas.core.frame.DataFrame&#39;&amp;gt;&#xA;RangeIndex: 3500 entries, 0 to 3499&#xA;Data columns (total 2 columns):&#xA; #   Column   Non-Null Count  Dtype&#xA;---  ------   --------------  -----&#xA; 0   cust_id  3500 non-null   int64&#xA; 1   gender   3500 non-null   int64&#xA;dtypes: int64(2)&#xA;memory usage: 54.8 KB&#xA;None&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h2 id=&#34;데이터-전처리&#34;&gt;데이터 전처리&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;2회-6회 시험까지 결측치는 존재하지 않았지만, 언제든지 결측치 처리 문제는 나올 수 있음.&lt;/li&gt;&#xA;&lt;li&gt;결측치를 처리할 때는 &lt;code&gt;fillna()&lt;/code&gt; 메서드를 사용한다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;숫자는 각 컬럼의 평균대치, 문자는 최빈도값 대치를 한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;isnull()&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sum()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;cust_id       0&#xA;총구매액          0&#xA;최대구매액         0&#xA;환불금액       2295&#xA;주구매상품         0&#xA;주구매지점         0&#xA;내점일수          0&#xA;내점당구매건수       0&#xA;주말방문비율        0&#xA;구매주기          0&#xA;dtype: int64&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;여기에서는 특정 컬럼의 결측치가 많아서 삭제 한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_train &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;drop(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;환불금액&amp;#34;&lt;/span&gt;, axis&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;isnull()&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sum()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;cust_id    0&#xA;총구매액       0&#xA;최대구매액      0&#xA;주구매상품      0&#xA;주구매지점      0&#xA;내점일수       0&#xA;내점당구매건수    0&#xA;주말방문비율     0&#xA;구매주기       0&#xA;dtype: int64&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_train[&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;주구매상품&amp;#39;&lt;/span&gt;]&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;value_counts()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;기타        595&#xA;가공식품      546&#xA;농산물       339&#xA;화장품       264&#xA;시티웨어      213&#xA;디자이너      193&#xA;수산품       153&#xA;캐주얼       101&#xA;명품        100&#xA;섬유잡화       98&#xA;골프         82&#xA;스포츠        69&#xA;일용잡화       64&#xA;모피/피혁      57&#xA;육류         57&#xA;남성 캐주얼     55&#xA;구두         54&#xA;건강식품       47&#xA;차/커피       44&#xA;피혁잡화       40&#xA;아동         40&#xA;축산가공       35&#xA;주방용품       32&#xA;셔츠         30&#xA;젓갈/반찬      29&#xA;주방가전       26&#xA;트래디셔널      23&#xA;남성정장       22&#xA;생활잡화       15&#xA;주류         14&#xA;가구         10&#xA;커리어         9&#xA;대형가전        8&#xA;란제리/내의      8&#xA;식기          7&#xA;액세서리        5&#xA;침구/수예       4&#xA;통신/컴퓨터      3&#xA;보석          3&#xA;남성 트랜디      2&#xA;소형가전        2&#xA;악기          2&#xA;Name: 주구매상품, dtype: int64&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_train[&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;주구매지점&amp;#39;&lt;/span&gt;]&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;value_counts()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;본  점     1077&#xA;잠실점       474&#xA;분당점       436&#xA;부산본점      245&#xA;영등포점      241&#xA;일산점       198&#xA;강남점       145&#xA;광주점       114&#xA;노원점        90&#xA;청량리점       86&#xA;대전점        70&#xA;미아점        69&#xA;부평점        57&#xA;동래점        49&#xA;관악점        46&#xA;인천점        34&#xA;안양점        29&#xA;포항점        11&#xA;대구점         7&#xA;센텀시티점       6&#xA;울산점         6&#xA;전주점         5&#xA;창원점         4&#xA;상인점         1&#xA;Name: 주구매지점, dtype: int64&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h2 id=&#34;컬럼-분리&#34;&gt;컬럼 분리&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;cust_id는 별도로 분리한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_train_id &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;pop(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;cust_id&amp;#34;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;info())&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;&amp;lt;class &#39;pandas.core.frame.DataFrame&#39;&amp;gt;&#xA;RangeIndex: 3500 entries, 0 to 3499&#xA;Data columns (total 8 columns):&#xA; #   Column   Non-Null Count  Dtype  &#xA;---  ------   --------------  -----  &#xA; 0   총구매액     3500 non-null   int64  &#xA; 1   최대구매액    3500 non-null   int64  &#xA; 2   주구매상품    3500 non-null   object &#xA; 3   주구매지점    3500 non-null   object &#xA; 4   내점일수     3500 non-null   int64  &#xA; 5   내점당구매건수  3500 non-null   float64&#xA; 6   주말방문비율   3500 non-null   float64&#xA; 7   구매주기     3500 non-null   int64  &#xA;dtypes: float64(2), int64(4), object(2)&#xA;memory usage: 218.9+ KB&#xA;None&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_test_id &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; X_test&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;pop(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;cust_id&amp;#34;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(X_test&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;info())&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;&amp;lt;class &#39;pandas.core.frame.DataFrame&#39;&amp;gt;&#xA;RangeIndex: 2482 entries, 0 to 2481&#xA;Data columns (total 9 columns):&#xA; #   Column   Non-Null Count  Dtype  &#xA;---  ------   --------------  -----  &#xA; 0   총구매액     2482 non-null   int64  &#xA; 1   최대구매액    2482 non-null   int64  &#xA; 2   환불금액     871 non-null    float64&#xA; 3   주구매상품    2482 non-null   object &#xA; 4   주구매지점    2482 non-null   object &#xA; 5   내점일수     2482 non-null   int64  &#xA; 6   내점당구매건수  2482 non-null   float64&#xA; 7   주말방문비율   2482 non-null   float64&#xA; 8   구매주기     2482 non-null   int64  &#xA;dtypes: float64(3), int64(4), object(2)&#xA;memory usage: 174.6+ KB&#xA;None&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;문자데이터와 숫자데이터 컬럼명만 추출한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;cat_cols &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;select_dtypes(exclude &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; np&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;number)&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;columns&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;tolist()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;num_cols &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; X_train&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;select_dtypes(include &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; np&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;number)&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;columns&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;tolist()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(cat_cols)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;print(num_cols)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;[&#39;주구매상품&#39;, &#39;주구매지점&#39;]&#xA;[&#39;총구매액&#39;, &#39;최대구매액&#39;, &#39;내점일수&#39;, &#39;내점당구매건수&#39;, &#39;주말방문비율&#39;, &#39;구매주기&#39;]&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h2 id=&#34;데이터셋-분리&#34;&gt;데이터셋 분리&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;데이터셋 분리의 기본 원칙은 최대한 데이터의 분포가 일정해야 한다는 것이다.&lt;/li&gt;&#xA;&lt;li&gt;평소 분석을 할 때는 하나씩 다 확인을 해야하지만, 시험장에서는 분류모델이 문제일 경우에는 y_train 데이터를 기준으로 층화추출을 한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_tr, X_val, y_tr, y_val &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; train_test_split(&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    X_train, y_train[&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;gender&amp;#39;&lt;/span&gt;],&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    stratify &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; y_train[&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;gender&amp;#39;&lt;/span&gt;],&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    test_size&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;0.3&lt;/span&gt;,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    random_state&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;42&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;X_tr&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;shape, X_val&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;shape, y_tr&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;shape, y_val&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;shape&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;pre&gt;&lt;code&gt;((2450, 8), (1050, 8), (2450,), (1050,))&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&lt;h2 id=&#34;모델-만들기&#34;&gt;모델 만들기&lt;/h2&gt;&#xA;&lt;h3 id=&#34;모델-만들기-1---입문자&#34;&gt;모델 만들기 1 - 입문자&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;기본 모델만 만들고 싶다면 아래 코드만 기억한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;column_transformer &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; ColumnTransformer([&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    (&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;scaler&amp;#34;&lt;/span&gt;, StandardScaler(), num_cols),&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    (&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;ohd_encoder&amp;#34;&lt;/span&gt;, OneHotEncoder(handle_unknown&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;ignore&amp;#39;&lt;/span&gt;), cat_cols)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;], remainder&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;passthrough&amp;#34;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pipeline &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; Pipeline([&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    (&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;preprocessing&amp;#34;&lt;/span&gt;, column_transformer),&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    (&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;clf&amp;#34;&lt;/span&gt;, RandomForestClassifier(random_state&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;42&lt;/span&gt;))&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;])&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pipeline&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;fit(X_tr, y_tr)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;img src=&#34;https://dschloe.github.io/img/programming/2023/11/ds_certificate_type2/pipeline.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>(파이썬) 빅데이터 분석기사 실기 - 제2유형, 회귀</title>
      <link>https://dschloe.github.io/programming/2023/06/dataq_02_reg/</link>
      <pubDate>Thu, 22 Jun 2023 00:01:47 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2023/06/dataq_02_reg/</guid>
      <description>&lt;h2 id=&#34;작업형-2유형-최종정리&#34;&gt;작업형 2유형 최종정리&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;작업형1 : 3문제 (30점), 데이터 전처리&lt;/li&gt;&#xA;&lt;li&gt;&lt;code&gt;작업형2 : 1문제 (40점), 분류/회귀 예측 모델링&lt;/code&gt;&lt;/li&gt;&#xA;&lt;li&gt;작업형3 : 2문제 (30점), 가설 검정&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;주요-라이브러리&#34;&gt;주요 라이브러리&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;palmerpenguins : 팔머펭귄 데이터셋의 목표는 iris 데이터셋의 대안으로 데이터 탐색 및 시각화를 위한 데이터셋 제공.&lt;/li&gt;&#xA;&lt;li&gt;scikit-learn : 머신러닝을 위한 라이브러리&lt;/li&gt;&#xA;&lt;li&gt;lightgbm : LightGBM은 Microsoft에서 개발한 오픈 소스 기계 학습 라이브러리로, 대용량 데이터셋에서 빠른 속도와 높은 성능을 제공하는 것이 특징&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;주의&#34;&gt;주의&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;각 코드에 대한 설명은 별도로 하지 않습니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;데이터-파일-불러오기&#34;&gt;데이터 파일 불러오기&lt;/h2&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; pandas &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; pd &#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; palmerpenguins &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; load_penguins &#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;penguins &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; load_penguins()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;penguins[&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;ID&amp;#39;&lt;/span&gt;] &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; penguins&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;reset_index()&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;index &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;penguins&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;head()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;img src=&#34;https://dschloe.github.io/img/programming/2023/06/dataq_02_reg/Untitled.png&#34; alt=&#34;Untitled&#34;&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>(파이썬) 빅데이터 분석기사 실기 - 제2유형, 분류</title>
      <link>https://dschloe.github.io/programming/2023/06/dataq_02_clf/</link>
      <pubDate>Wed, 21 Jun 2023 00:01:47 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2023/06/dataq_02_clf/</guid>
      <description>&lt;h2 id=&#34;작업형-2유형-최종정리&#34;&gt;작업형 2유형 최종정리&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;작업형1 : 3문제 (30점), 데이터 전처리&lt;/li&gt;&#xA;&lt;li&gt;&lt;code&gt;작업형2 : 1문제 (40점), 분류/회귀 예측 모델링&lt;/code&gt;&lt;/li&gt;&#xA;&lt;li&gt;작업형3 : 2문제 (30점), 가설 검정&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;주요-라이브러리&#34;&gt;주요 라이브러리&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;palmerpenguins : 팔머펭귄 데이터셋의 목표는 iris 데이터셋의 대안으로 데이터 탐색 및 시각화를 위한 데이터셋 제공.&lt;/li&gt;&#xA;&lt;li&gt;scikit-learn : 머신러닝을 위한 라이브러리&lt;/li&gt;&#xA;&lt;li&gt;lightgbm : LightGBM은 Microsoft에서 개발한 오픈 소스 기계 학습 라이브러리로, 대용량 데이터셋에서 빠른 속도와 높은 성능을 제공하는 것이 특징&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;주의&#34;&gt;주의&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;각 코드에 대한 설명은 별도로 하지 않습니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;데이터-불러오기&#34;&gt;데이터 불러오기&lt;/h2&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; pandas &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; pd &#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; palmerpenguins &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; load_penguins &#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;penguins &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; load_penguins()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;penguins[&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;ID&amp;#39;&lt;/span&gt;] &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; penguins&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;reset_index()&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;index &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;penguins&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;head()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;img src=&#34;https://dschloe.github.io/img/programming/2023/06/dataq_02_clf/Untitled.png&#34; alt=&#34;Untitled&#34;&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>(파이썬) 빅데이터 분석기사 실기 준비 - 제3유형</title>
      <link>https://dschloe.github.io/programming/2023/06/dataq_03/</link>
      <pubDate>Tue, 20 Jun 2023 00:01:47 +0900</pubDate>
      <guid>https://dschloe.github.io/programming/2023/06/dataq_03/</guid>
      <description>&lt;h2 id=&#34;작업형-3유형-최종정리&#34;&gt;작업형 3유형 최종정리&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;작업형1 : 3문제 (30점), 데이터 전처리&lt;/li&gt;&#xA;&lt;li&gt;작업형2 : 1문제 (40점), 분류/회귀 예측 모델링&lt;/li&gt;&#xA;&lt;li&gt;&lt;code&gt;작업형3 : 2문제 (30점), 가설 검정&lt;/code&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;라이브러리-확인&#34;&gt;라이브러리 확인&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;파이썬에서 가설검정을 위한 통계와 관련된 라이브러리는 크게 2가지이다.&#xA;&lt;ul&gt;&#xA;&lt;li&gt;scipy : SciPy는 수치 계산, 최적화, 선형 대수, 신호 및 이미지 처리, 통계 분석 등과 같은 과학적 계산 작업을 수행하는 데 사용됨&lt;/li&gt;&#xA;&lt;li&gt;statsmodels : Statsmodels는 통계 분석과 추정을 위한 파이썬 라이브러리로, 선형 회귀, 로지스틱 회귀, 시계열 분석, 비모수적 추정 등 다양한 통계 모델을 지원함.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;SciPy와 Statsmodels는 각각의 독립성과 기능을 가지고 있으며, 과학적 계산과 통계 분석을 위한 파이썬 생태계에서 함께 사용되는 보완적인 라이브러리임.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;주의&#34;&gt;주의&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;여기에서는 각 검정의 구체적인 원리 설명은 하지 않는다.&lt;/li&gt;&#xA;&lt;li&gt;코드 위주로만 확인을 하도록 한다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;one-sample-t-test&#34;&gt;One Sample T-Test&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;가설검정&#xA;&lt;ul&gt;&#xA;&lt;li&gt;귀무가설 : 붓꽃의 sepal_length의 평균은 5.5이다.&lt;/li&gt;&#xA;&lt;li&gt;대립가설 : 붓꽃의 sepal_length의 평균은 5.5이 아니다.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; seaborn &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; sns&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; pandas &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; pd&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;iris_df &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; sns&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;load_dataset(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;iris&amp;#34;&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;iris_df&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;head()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;img src=&#34;https://dschloe.github.io/img/programming/2023/06/dataq_03/Untitled.png&#34; alt=&#34;Untitled&#34;&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
