Python

지도시각화 예제 - QGIS를 활용한 geojson 파일 만들기

강의소개

Installation

  • Map 시각화를 위한 주요 라이브러리를 설치한다.
pip install numpy pandas matplotlib seaborn jupyterlab geopandas pydeck

Enabling pydeck for Jupyter

  • Jupyter는 더 복잡한 서버/클라이언트 상호 작용을 허용할 수 있다.
  • 사용자 또는 시스템 관리자가 주피터에서 사용할 수 있도록 pydeck를 사용하도록 설정해야 한다.
  • 바이너리 데이터 전송, 데이터 선택 및 시간 경과에 따른 데이터 업데이트는 파이덱이 주피터 환경에서 사용 가능한 경우에만 대화식으로 작동할 수 있다.
  • Jupyter 노트북의 Pydeck를 활성화하려면:
$ jupyter nbextension install --sys-prefix --symlink --overwrite --py pydeckInstalling your_url -> pydeckRemoving: your_urlSymlinking:your_url -> your_url- Validating: ok    To initialize this nbextension in the browser every time the notebook (or other app) loads:          jupyter nbextension enable pydeck --py --sys-prefix
jupyter nbextension enable --sys-prefix --py pydeck
Enabling notebook extension pydeck/extensionRequires...
      - Validating: ok

법정동 병합 데이터 만들기

QGIS 설치

  • 설치는 다음과 같다.

Untitled

Streamlit 라이브러리를 활용한 배포 예제 - sqlite

강의소개

개요

  • 간단한 프로젝트라도 DB와 연동하는 작업은 매우 중요하다.
  • 클라우드 DB를 사용하기 위해서는 클라우드 회원가입 등 번거로운 절차를 거쳐야 하며, 또한 비용도 추가될 수도 있다.
  • SQLite를 사용하면 간단한 DB 작업도 진행할 수 있다.
  • Streamlit + SQLite 연동 작업을 간단히 하도록 해본다.

SQLite

  • 데이터 핸들링을 하기 위해서는 Python 기초 문법, Pandas 라이브러리를 배워야 한다.
  • Pandas는 본 블로그에서 CSV 파일을 읽고 저장을 하는데 사용을 하게 된다.
  • SQLite는 입문자가 시작할 수 있는 가장 간단한 DB이다.
  • 개별 PC에 로컬 파일을 생성하며, 이 파일에 대해 PostgresDB와 거의 동일한 쿼리를 실행할 수 있습니다.
  • 웹싸이트 : https://sqlite.org/index.html

Streamlit

  • Python으로 웹을 가장 빠르게 만드는 방법은 Streamlit 이다.
  • 다중 페이지 등을 제작할 수 있는 방법론이 나오기도 했다.
  • 가장 좋은 장점은 SQLite를 사용할 수 있다는 점이다.

Streamlit Code

  • 우선 전체 코드를 작성하도록 한다.
import sqlite3
import streamlit as st
import pandas as pd
import os

def create_connection(db_file):
    """ create a database connection to the SQLite database
        specified by the db_file
    :param db_file: database file
    :return: Connection object or None
    """
    conn = None
    try:
        conn = sqlite3.connect(db_file)
    except Exception as e:
        st.write(e)

    return conn

def create_database():
    st.markdown("# Create Database")

    st.write("""A database in SQLite is just a file on same server. 
    By convention their names always end in .db""")

    db_filename = st.text_input("DB Filename")
    create_db = st.button('Create Database')

    if create_db:
        if db_filename.endswith('.db'):
            conn = create_connection(db_filename)
            st.write(conn) # success message?
        else: 
            st.write('DB filename must end with .db, please retry.')

def upload_data():
    st.markdown("# Upload Data")
    # https://discuss.streamlit.io/t/uploading-csv-and-excel-files/10866/2
    sqlite_dbs = [file for file in os.listdir('.') if file.endswith('.db')]
    db_filename = st.selectbox('DB Filename', sqlite_dbs)
    table_name = st.text_input('Table Name to Insert')
    conn = create_connection(db_filename)
    uploaded_file = st.file_uploader('Choose a file')
    if uploaded_file is not None:
        #read csv
        try:
            df = pd.read_csv(uploaded_file)
            df.to_sql(name=table_name, con=conn)
            st.write('Data uploaded successfully. These are the first 5 rows.')
            st.dataframe(df.head(5))

        except Exception as e:
            st.write(e)

def run_query():
    st.markdown("# Run Query")
    sqlite_dbs = [file for file in os.listdir('.') if file.endswith('.db')]
    db_filename = st.selectbox('DB Filename', sqlite_dbs)

    query = st.text_area("SQL Query", height=100)
    conn = create_connection(db_filename)

    submitted = st.button('Run Query')

    if submitted:
        try:
            query = conn.execute(query)
            cols = [column[0] for column in query.description]
            results_df= pd.DataFrame.from_records(
                data = query.fetchall(), 
                columns = cols
            )
            st.dataframe(results_df)
        except Exception as e:
            st.write(e)

    st.sidebar.markdown("# Run Query")

page_names_to_funcs = {
    "Create Database": create_database,
    "Upload Data": upload_data,
    "Run Query": run_query,
}

selected_page = st.sidebar.selectbox("Select a page", page_names_to_funcs.keys())
page_names_to_funcs[selected_page]()

코드 설명 1 - Python Packages

  • 코드는 다음과 같다.
import sqlite3
import streamlit as st
import pandas as pd
import os
  • sqlite3os는 Python의 내장 패키지이며 별도로 설치할 필요가 없다.
  • pandasstreamlit 라이브러리는 pip install ~ 로 설치를 해야 한다.

코드 설명 2 - create_connection(db_file)

  • 코드는 다음과 같다.
def create_connection(db_file):
    """ create a database connection to the SQLite database specified by the db_file
    :param db_file: database file
    :return: Connection object or None
    """
    conn = None
    try:
        conn = sqlite3.connect(db_file)
    except Exception as e:
        st.write(e)

    return conn
  • 해당 함수의 역할은 db_file 파라미터 값을 받으면 sqlite3.connect 연동이 되도록 설계 한다.
  • 만약, 해당 DB file이 정상적으로 연결이 되면 conn 저장이 되도록 한다.
  • 만약, 없다면 예외처리로 진행한다.

코드 설명 3 - create_database ()

  • 코드는 다음과 같다.
def create_database():
    st.markdown("# Create Database")

    st.write("""A database in SQLite is just a file on same server. 
    By convention their names always end in .db""")

    db_filename = st.text_input("DB Filename")
    create_db = st.button('Create Database')

    if create_db:
        if db_filename.endswith('.db'):
            conn = create_connection(db_filename)
            st.write(conn) # success message?
        else: 
            st.write('DB filename must end with .db, please retry.')
  • Create Database 버튼을 클릭하면
    • DB명이 정상적으로 db명.db 처럼 들어오게 되면 database가 생성이 된다.
    • 만약, 잘못된 이름이 입력되면 에러 메시지를 내보내어 다시 입력하도록 한다.

코드 설명 4 - update_data()

  • 코드는 다음과 같다.
def upload_data():
    st.markdown("# Upload Data")
    # https://discuss.streamlit.io/t/uploading-csv-and-excel-files/10866/2
    sqlite_dbs = [file for file in os.listdir('.') if file.endswith('.db')]
    db_filename = st.selectbox('DB Filename', sqlite_dbs)
    table_name = st.text_input('Table Name to Insert')
    conn = create_connection(db_filename)
    uploaded_file = st.file_uploader('Choose a file')
    if uploaded_file is not None:
        #read csv
        try:
            df = pd.read_csv(uploaded_file)
            df.to_sql(name=table_name, con=conn)
            st.write('Data uploaded successfully. These are the first 5 rows.')
            st.dataframe(df.head(5))

        except Exception as e:
            st.write(e)
  • 위 코드는 csv 파일을 업로드하여 특정 DB에 테이블로 추가하는 코드이다.
  • sqlite_dbs 객체는 저장된 .db 종류를 보여준다. 즉, 데이터베이스를 지정하는 코드라고 보면 된다.
  • table_name 객체는 사용자가 직접 테이블 이름을 입력한다.
  • uploaded_file 객체는 파일을 업로더 하도록 도와준다.
  • if 조건문은 정상적으로 파일이 업로드가 되면, pandas 데이터 프레임으로 읽고, table로 해당 객체를 저장하는 명령어를 의미한다.

코드 설명 5 - run_query()

  • 코드는 다음과 같다.
def run_query():
    st.markdown("# Run Query")
    sqlite_dbs = [file for file in os.listdir('.') if file.endswith('.db')]
    db_filename = st.selectbox('DB Filename', sqlite_dbs)

    query = st.text_area("SQL Query", height=100)
    conn = create_connection(db_filename)

    submitted = st.button('Run Query')

    if submitted:
        try:
            query = conn.execute(query)
            cols = [column[0] for column in query.description]
            results_df= pd.DataFrame.from_records(
                data = query.fetchall(), 
                columns = cols
            )
            st.dataframe(results_df)
        except Exception as e:
            st.write(e)

    st.sidebar.markdown("# Run Query")
  • 위 코드는 DB명을 지정 후, 쿼리를 작성하도록 하는 것이다.
  • Run Query 버튼을 클릭하면, 해당 쿼리를 실행한다.
  • 이 때, 실행 결과는 크게 세가지로 나눠서 진행이 된다.
    • 쿼리 실행 시, cols 객체는 결과 테이블의 컬럼명을 리스트로 저장한다.
    • 쿼리 실행 시, query.fetchall() 각 데이터를 리스트로 저장한다.
  • 각 쿼리는 from_records를 통해서 데이터 프레임으로 저장된다.

코드 설명 6 - 사이드바

  • 코드는 다음과 같다.
def main():
    page_names_to_funcs = {
        "Create Database": create_database,
        "Upload Data": upload_data,
        "Run Query": run_query,
    }

    selected_page = st.sidebar.selectbox("Select a page", page_names_to_funcs.keys())
    page_names_to_funcs[selected_page]()

if __name__ == '__main__':
    main()
  • page_names_to_funcs 딕셔너리 value 값에 저장된 것은 지정한 사용자 정의 함수이다.

시연 이미지

  • Create Database 화면이다.

Untitled

서울시 부동산 실거래가 정보 API 크롤링 2 - 크롤링편 (XML)

개요

  • Open API를 통해서 부동산 실거래가 정보를 pandas 데이터프레임으로 변환하는 코드를 구현한다.

요청인자 확인

Untitled

  • 샘플 URL은 크게 2가지를 제공한다.
    • 서울시 부동산 실거래가 정보
    • 서울시 부동산 실거래가 정보(마곡일성트루엘플래닛)
  • 출력 예제는 다음과 같다.
<?xml version="1.0" encoding="UTF-8"?>
<tbLnOpendataRtmsV>
<list_total_count>2639192</list_total_count>
<RESULT>
<CODE>INFO-000</CODE>
<MESSAGE>정상 처리되었습니다</MESSAGE>
</RESULT>
<row>
<ACC_YEAR>2023</ACC_YEAR>
<SGG_CD>11545</SGG_CD>
<SGG_NM>금천구</SGG_NM>
<BJDONG_CD>10100</BJDONG_CD>
<BJDONG_NM>가산동</BJDONG_NM>
<LAND_GBN>1</LAND_GBN>
<LAND_GBN_NM>대지</LAND_GBN_NM>
<BONBEON>0776</BONBEON>
<BUBEON>0000</BUBEON>
<BLDG_NM>가산대명벨리온</BLDG_NM>
<DEAL_YMD>20230127</DEAL_YMD>
<OBJ_AMT>12300</OBJ_AMT>
<BLDG_AREA>16.28</BLDG_AREA>
<TOT_AREA>25.630000</TOT_AREA>
<FLOOR>8</FLOOR>
<RIGHT_GBN/>
<CNTL_YMD/>
<BUILD_YEAR>2017</BUILD_YEAR>
<HOUSE_TYPE>오피스텔</HOUSE_TYPE>
<REQ_GBN>중개거래</REQ_GBN>
<RDEALER_LAWDNM>서울 금천구</RDEALER_LAWDNM>
</row>
<row>
<ACC_YEAR>2023</ACC_YEAR>
<SGG_CD>11500</SGG_CD>
<SGG_NM>강서구</SGG_NM>
<BJDONG_CD>10500</BJDONG_CD>
<BJDONG_NM>마곡동</BJDONG_NM>
<LAND_GBN>1</LAND_GBN>
<LAND_GBN_NM>대지</LAND_GBN_NM>
<BONBEON>0793</BONBEON>
<BUBEON>0000</BUBEON>
<BLDG_NM>유림트윈파크</BLDG_NM>
<DEAL_YMD>20230127</DEAL_YMD>
<OBJ_AMT>13900</OBJ_AMT>
<BLDG_AREA>19.99</BLDG_AREA>
<TOT_AREA>30.300000</TOT_AREA>
<FLOOR>6</FLOOR>
<RIGHT_GBN/>
<CNTL_YMD/>
<BUILD_YEAR>2015</BUILD_YEAR>
<HOUSE_TYPE>오피스텔</HOUSE_TYPE>
<REQ_GBN>중개거래</REQ_GBN>
<RDEALER_LAWDNM>서울 강서구</RDEALER_LAWDNM>
</row>
<row>
<ACC_YEAR>2023</ACC_YEAR>
<SGG_CD>11500</SGG_CD>
<SGG_NM>강서구</SGG_NM>
<BJDONG_CD>10300</BJDONG_CD>
<BJDONG_NM>화곡동</BJDONG_NM>
<LAND_GBN>1</LAND_GBN>
<LAND_GBN_NM>대지</LAND_GBN_NM>
<BONBEON>1115</BONBEON>
<BUBEON>0034</BUBEON>
<BLDG_NM>casagio</BLDG_NM>
<DEAL_YMD>20230127</DEAL_YMD>
<OBJ_AMT>22100</OBJ_AMT>
<BLDG_AREA>29.98</BLDG_AREA>
<TOT_AREA>21.430000</TOT_AREA>
<FLOOR>2</FLOOR>
<RIGHT_GBN/>
<CNTL_YMD/>
<BUILD_YEAR>2019</BUILD_YEAR>
<HOUSE_TYPE>연립다세대</HOUSE_TYPE>
<REQ_GBN>직거래</REQ_GBN>
<RDEALER_LAWDNM/>
</row>
<row>
<ACC_YEAR>2023</ACC_YEAR>
<SGG_CD>11320</SGG_CD>
<SGG_NM>도봉구</SGG_NM>
<BJDONG_CD>10600</BJDONG_CD>
<BJDONG_NM>방학동</BJDONG_NM>
<LAND_GBN>1</LAND_GBN>
<LAND_GBN_NM>대지</LAND_GBN_NM>
<BONBEON>0632</BONBEON>
<BUBEON>0023</BUBEON>
<BLDG_NM>(632-23)</BLDG_NM>
<DEAL_YMD>20230126</DEAL_YMD>
<OBJ_AMT>12500</OBJ_AMT>
<BLDG_AREA>41.58</BLDG_AREA>
<TOT_AREA>30.760000</TOT_AREA>
<FLOOR>1</FLOOR>
<RIGHT_GBN/>
<CNTL_YMD/>
<BUILD_YEAR>1986</BUILD_YEAR>
<HOUSE_TYPE>연립다세대</HOUSE_TYPE>
<REQ_GBN>직거래</REQ_GBN>
<RDEALER_LAWDNM/>
</row>
<row>
<ACC_YEAR>2023</ACC_YEAR>
<SGG_CD>11410</SGG_CD>
<SGG_NM>서대문구</SGG_NM>
<BJDONG_CD>11200</BJDONG_CD>
<BJDONG_NM>대현동</BJDONG_NM>
<LAND_GBN>1</LAND_GBN>
<LAND_GBN_NM>대지</LAND_GBN_NM>
<BONBEON>0101</BONBEON>
<BUBEON>0007</BUBEON>
<BLDG_NM>혜우</BLDG_NM>
<DEAL_YMD>20230126</DEAL_YMD>
<OBJ_AMT>80000</OBJ_AMT>
<BLDG_AREA>129.27</BLDG_AREA>
<TOT_AREA>0.000000</TOT_AREA>
<FLOOR>10</FLOOR>
<RIGHT_GBN/>
<CNTL_YMD/>
<BUILD_YEAR>1996</BUILD_YEAR>
<HOUSE_TYPE>아파트</HOUSE_TYPE>
<REQ_GBN>직거래</REQ_GBN>
<RDEALER_LAWDNM/>
</row>
</tbLnOpendataRtmsV>

Untitled

서울시 부동산 실거래가 정보 API 크롤링 1 - 인증키 발급편

회원가입

Untitled

  • 모두 동의합니다를 선택한다.

Untitled

Untitled

  • 본인인증 절차를 거친다.

Untitled

Untitled

  • 회원정보를 입력한다.

Untitled

  • 부가서비스 신청은 옵션이기 때문에 여기서 별도로 다루지는 않겠다.

Untitled

  • 회원가입이 완료가 되었다.

Untitled

서울 열린데이터 광장 로그인

  • 이제 데이터 수집을 위해, 해당 사이트에 로그인을 진행한다.

Untitled

  • 찾고 싶은 데이터를 입력해주세요 부동산을 입력하고 검색을 진행한다.

Untitled

  • 여기에서 서울시 부동산 실거래가 정보 탭을 클릭한다.

Untitled

  • 하단에 인증키 신청을 클릭한다.

Untitled

  • 작성이 끝나면 바로 API 발급이 부여가 된다.

Untitled

OpenCV 개발환경 윈도우 버전

개요

  • Windows에서 Opencv 개발환경을 구축한다.
  • 아나콘다를 설치하지 않고 구축한다.

사전 준비

  • 파이썬 설치는 이미 진행된 것으로 가정한다.
  • 또한 가상환경을 이미 설치한 것으로 가정한다.

주요 설치 명령어

  • opencv-pythonOpenCV의 메인 모듈을 포함하고, opencv-contrib-python은 메인 모듈과 Extras 모듈을 포함한다.
    • 설치 시, NumPy는 자동으로 설치 된다.
  • matplotlib 라이브러리는 파이썬 기본 시각화 라이브러리이다.
  • pafy 라이브러리는 Youtube의 메타 데이터를 수집/검색하거나 다운로드 할 수 있도록 도와줌
  • youtube_dl 라이브러리는 터미널에서 사용 가능한 라이브러리이다.
  • pygame은 파이썬에서 제공하는 게임 라이브러리이다.
pip install opencv-contrib-python
pip install matplotlib
pip install pafy youtube_dl pygame
  • 그런데, python 3.11.* 버전에서는 pygame이 설치가 안될 수 있다. 이럴 경우 downgrade를 통해 설치를 진행한다.
pip install pygame --pre

테스트

  • 먼저 opencv 라이브러리가 잘 작동하는지 테스트 한다.

이미지 출력

  • 먼저 opencv 라이브러리를 활용하여 아래 코드를 실행한다.
import cv2
imgFile = 'RGB_paint.png'
img = cv2.imread(imgFile)

cv2.imshow('image', img)
cv2.waitKey()
cv2.destroyAllWindows()

Untitled

Streamlit 라이브러리를 활용한 배포 - BigQuery 사용

개요

  • Streamlit 라이브러리와 BigQuery를 사용하여 배포를 진행한다.
  • GCP 클라우드 프로젝트 설정 과정은 생략한다.

BigQuery API 사용설정

  • Project API에서 ENABLE APIS AND SERVICES 버튼을 클릭한다.

Untitled

  • 빅쿼리 API를 탐색한다.
    • 키워드명 : BigQuery API

Untitled

Untitled

  • manage 버튼을 클릭한다.

Untitled

  • 인증키를 다운로드 받도록 한다. (CREATE CREDENTIALS클릭)

Untitled

  • 아래와 같이 지정 후, 스크롤을 내려서 NEXT 버튼을 클릭한다.

Untitled

  • 임의의 Service account ID 작성 후, CREATE AND CONTINUE 버튼을 클릭한다.

Untitled

  • 프로젝트 권한을 부여 후, CONTINUE 버튼을 클릭한다.

Untitled

Streamlit 라이브러리를 활용한 배포 예제

사전준비

  • 배포를 하기 위해서는 필수로 진행해야 할 사전준비가 필요하다.
  • Git & Github 설치 과정은 생략한다.

Step 01 - Streamlit 회원가입

Untitled

Untitled

  • Set up your account를 작성한다. 작성이 끝나면 다음과 같은 화면이 나오면 정상적으로 등록이 된 것이다.

Untitled

Step 02 - Github 레포 설정

  • Gitub 레포를 설정한다.
  • 이 때, 주의해야 할 것은 Public으로 설정을 해야한다.
    • .gitignore 파일도 Setting 하는 것이 좋다.

Untitled

윈도우 배치 파일 - 파이썬 가상환경 적용

개요

  • Python 가상환경을 만든 후, 자동으로 배치 파일이 돌아가도록 하는 코드를 작성하도록 한다.

Step 01 - 라이브러리 설치

  • 가상환경을 만든 후, pandas 라이브러리를 설치하도록 한다.
$ virtualenv venv
$ ./venv/Scripts/activate 
  • 만약 에러가 아래와 에러가 생길 경우,
$ .\venv\Scripts\activate
.\venv\Scripts\activate : 이 시스템에서 스크립트를 실
행할 수 없으므로 C:\Users\h\Desktop\python_batch\venv\
Scripts\activate.ps1 파일을 로드할 수 없습니다. 자세한
 내용은 about_Execution_Policies(https://go.microsoft.
com/fwlink/?LinkID=135170)를 참조하십시오.
위치 줄:1 문자:1
+ .\venv\Scripts\activate
+ ~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : 보안 오류: (:) [], PSSec
uri    tyException
    + FullyQualifiedErrorId : UnauthorizedAccess
  • PowerShell을 관리자 권한으로 실행 후 아래 코드를 입력한다. (Y 입력)
PS C:\WINDOWS\system32> Set-ExecutionPolicy Unrestricted

실행 규칙 변경
실행 정책은 신뢰하지 않는 스크립트로부터 사용자를 보호합니다. 실행 정책을 변경하면 about_Execution_Policies 도움말
항목(https://go.microsoft.com/fwlink/?LinkID=135170)에 설명된 보안 위험에 노출될 수 있습니다. 실행 정책을
변경하시겠습니까?
[Y] 예(Y)  [A] 모두 예(A)  [N] 아니요(N)  [L] 모두 아니요(L)  [S] 일시 중단(S)  [?] 도움말 (기본값은 "N"): Y

Step 02 - app.py 작성

  • app.py는 아래와 같이 작성한다.
    • iris.csv 파일은 검색하면 금방 나오기 때문에, 아무거나 다운로드 받는다.
import pandas as pd 

def main():
    print(pd.__version__)
    df = pd.read_csv("data/iris.csv")
    print(df)

if __name__ == "__main__":
    main()

Step 03 - myproject.cmd 파일 작성

  • 아래와 같이 batchFile.bat 파일을 작성한다.
call C:\Users\h\Desktop\python_batch\venv\Scripts\activate
@cd C:\Users\h\Desktop\python_batch
python app.py
pause

Step 04 - 환경변수 설정

  • 경로는 프로젝트에서 venv 까지 지정하면 된다.
  • 이 부분은 각자 프로젝트가 다르기 때문에 본인 프로젝트 경로를 지정해야 한다.
    • C:\Users\h\Desktop\python_batch\venv

Untitled

Heroku를 활용한 카카오챗봇 배포 - DB조회편

읽기 전 공지

  • 본 글은 2022년 11월 28일까지만 유효합니다. 무료 버전이 사라지기 때문에, 앞으로 어떻게 될지는 현재 글 쓰는 시점에서는 모릅니다. 이 부분에 주의해서 참고 하시기를 바랍니다.

강의 홍보

Heroku를 활용한 카카오챗봇 배포 - 응용편

읽기 전 공지

  • 본 글은 2022년 11월 28일까지만 유효합니다. 무료 버전이 사라지기 때문에, 앞으로 어떻게 될지는 현재 글 쓰는 시점에서는 모릅니다. 이 부분에 주의해서 참고 하시기를 바랍니다.

강의 홍보