Crawling

Scrapy Tutorial - 다중페이지 크롤링

개요 이번에는 Scrapy를 통해서 다중 페이지를 크롤링 하도록 한다. Target 페이지 타겟 웹사이트 : https://www.audible.com/search 프로젝트 시작 프로젝트 시작은 다음과 같이 할 수 있다. $ scrapy startproject multiCam_tutorial New Scrapy project 'multiCam_tutorial', using template directory 'C:\Users\j2hoo\OneDrive\Desktop\your_project_folder\venv\Lib\site-packages\scrapy\templates\project', created in: C:\Users\j2hoo\OneDrive\Desktop\your_path\multiCam_tutorial You can start your first spider with: cd multiCam_tutorial scrapy genspider example example.com 해당 multiCam_tutorial 경로에서 다음 명령어를 실행하여 타겟 사이트를 설정한다. $ scrapy genspider audible www.audible.com/search Created spider 'audible' using template 'basic' in module: multiCam_tutorial.

Scrapy Tutorial - 기본편

개요 Scrapy Tutorial 설치 과정 및 기본 크롤링 과정을 살펴본다. 라이브러리 설치 라이브러리 설치는 다음과 같다. pip install scrapy 프로젝트 시작 Django와 비슷하게 터미널 명령어는 startproject라고 입력한다. $ scrapy startproject multiCam_tutorial New Scrapy project 'multiCam_tutorial', using template directory 'C:\Users\j2hoo\OneDrive\Desktop\your_project_folder\venv\Lib\site-packages\scrapy\templates\project', created in: C:\Users\j2hoo\OneDrive\Desktop\your_path\multiCam_tutorial You can start your first spider with: cd multiCam_tutorial scrapy genspider example example.com 파일 구조는 아래와 같이 여러개의 파일로 구성되었다. 타겟 주소는 아래와 같다. 주소 : https://www.worldometers.info/world-population/population-by-country/ $ scrapy genspider worldometer www.

네이버 API 사용 신청 (2023 Aug)

개요 크롤링을 위해 네이버 API 사용을 신청해본다. Step 01 - 사이트 접속 네이버 개발자센터 사이트에 접속한다. URL : https://developers.naver.com/main/ Step 02 - 로그인 화면 우측 상단에서 로그인을 진행한다. Step 03 - API 이용신청 및 Application 등록 상단 메뉴에서 Application 클릭 후, 내 애플리케이션을 클릭한다. 확인 버튼을 클릭한다. 이용약관에 동의한다. 계정 정보를 등록 및 휴대폰 인증을 진행한다. 애플리케이션을 등록한다. (아무이름을 작성한다) 개인 PC로 접속하기 위해 WEB 설정 - localhost를 입력한다. 사용 API는 여기에서는 간단하게 검색만 지정한다.

크롬드라이버 설정 방법 - Windows (2023 Aug)

개요 selenium 4.10 버전에서 크롬드라이버 설정하는 방법에 대해 기술하고자 한다. 크롬 버전 확인 크롬 버전 확인은 아래와 같이 진행한다. 먼저 설정을 클릭한다. Chrome 정보를 클릭한다. 본인의 크롬 버전을 확인한다. 크롬 드라이버 다운로드 싸이트 : https://chromedriver.chromium.org/downloads 여기에서 각 크롬버전에 맞게 들어간다. 그런데 간혹 최신버전은 빨간색 글씨 처럼 별도로 접근해 들어가야 한다. 참고 : https://googlechromelabs.github.io/chrome-for-testing/ 필자의 경우 크롬 버전은 115.0.5790.110 이지만 Status가 X로 되어 있다. 이럴 경우 115.0.5790.102 버전을 선택 한다. 위 화면에서 chromedriver를 본인 컴퓨터 OS에 맞는 것을 찾아서 다운로드 받는다.

서울시 부동산 실거래가 정보 API 크롤링 2 - 크롤링편 (XML)

개요 Open API를 통해서 부동산 실거래가 정보를 pandas 데이터프레임으로 변환하는 코드를 구현한다. 요청인자 확인 샘플 URL은 크게 2가지를 제공한다. 서울시 부동산 실거래가 정보 http://openapi.seoul.go.kr:8088/(인증키)/xml/tbLnOpendataRtmsV/1/5/ 서울시 부동산 실거래가 정보(마곡일성트루엘플래닛) http://openapi.seoul.go.kr:8088/(인증키)/xml/tbLnOpendataRtmsV/1/5/2022/11500/강서구/10500/일반/0758/0002/마곡일성트루엘플래닛/오피스텔 출력 예제는 다음과 같다. <?xml version="1.0" encoding="UTF-8"?> <tbLnOpendataRtmsV> <list_total_count>2639192</list_total_count> <RESULT> <CODE>INFO-000</CODE> <MESSAGE>정상 처리되었습니다</MESSAGE> </RESULT> <row> <ACC_YEAR>2023</ACC_YEAR> <SGG_CD>11545</SGG_CD> <SGG_NM>금천구</SGG_NM> <BJDONG_CD>10100</BJDONG_CD> <BJDONG_NM>가산동</BJDONG_NM> <LAND_GBN>1</LAND_GBN> <LAND_GBN_NM>대지</LAND_GBN_NM> <BONBEON>0776</BONBEON> <BUBEON>0000</BUBEON> <BLDG_NM>가산대명벨리온</BLDG_NM> <DEAL_YMD>20230127</DEAL_YMD> <OBJ_AMT>12300</OBJ_AMT> <BLDG_AREA>16.28</BLDG_AREA> <TOT_AREA>25.630000</TOT_AREA> <FLOOR>8</FLOOR> <RIGHT_GBN/> <CNTL_YMD/> <BUILD_YEAR>2017</BUILD_YEAR> <HOUSE_TYPE>오피스텔</HOUSE_TYPE> <REQ_GBN>중개거래</REQ_GBN> <RDEALER_LAWDNM>서울 금천구</RDEALER_LAWDNM> </row> <row> <ACC_YEAR>2023</ACC_YEAR> <SGG_CD>11500</SGG_CD> <SGG_NM>강서구</SGG_NM> <BJDONG_CD>10500</BJDONG_CD> <BJDONG_NM>마곡동</BJDONG_NM> <LAND_GBN>1</LAND_GBN> <LAND_GBN_NM>대지</LAND_GBN_NM> <BONBEON>0793</BONBEON> <BUBEON>0000</BUBEON> <BLDG_NM>유림트윈파크</BLDG_NM> <DEAL_YMD>20230127</DEAL_YMD> <OBJ_AMT>13900</OBJ_AMT> <BLDG_AREA>19.

서울시 부동산 실거래가 정보 API 크롤링 1 - 인증키 발급편

회원가입 회원가입 : 회원가입 | 서울특별시청 (seoul.go.kr) 모두 동의합니다를 선택한다. 본인인증 절차를 거친다. 회원정보를 입력한다. 부가서비스 신청은 옵션이기 때문에 여기서 별도로 다루지는 않겠다. 회원가입이 완료가 되었다. 서울 열린데이터 광장 로그인 이제 데이터 수집을 위해, 해당 사이트에 로그인을 진행한다. 찾고 싶은 데이터를 입력해주세요 부동산을 입력하고 검색을 진행한다. 여기에서 서울시 부동산 실거래가 정보 탭을 클릭한다. 하단에 인증키 신청을 클릭한다. 작성이 끝나면 바로 API 발급이 부여가 된다.

R Selenium 설치 가이드 (Windows)

개요 R에서 Selenium을 설치하는 과정을 보여준다. 우선 자바가 설치되어 있는지 확인한다. 유투브에서 제목만 가져오는 Demo 코드를 작성한다. 자바를 모르시는 분 만약 자바 설치를 해본적이 없다면 아래 코드를 순차적으로 입력한다. install.packages("multilinguer") library(multilinguer) install_jdk() # Rtools 설치 필요 # https://cran.r-project.org/bin/windows/Rtools write('PATH="${RTOOLS40_HOME}\\usr\\bin;${PATH}"', file = "~/.Renviron", append = TRUE) Sys.which("make") install.packages(c("stringr", "hash", "tau", "Sejong", "RSQLite", "devtools"), type = "binary") install.packages("remotes") remotes::install_github("haven-jeon/KoNLP", upgrade = "never", INSTALL_opts = c("--no-multiarch")) library(KoNLP) useNIADic() 마지막 코드에서 콘솔창이 보인다면 정상적으로 설치가 완료가 된 것이다.