disk.frame 패키지 소개

공지 대용량 데이터 전처리시에 필요한 패키지를 소개한다. url: https://www.youtube.com/watch?v=EOjObl_GSi4 주석은 가급적 원어를 남겨 놓으니 잘 번역하기를 바란다. 설치 설치 방법은 기존과 마찬가지로 간단하게 작성할 수 있다. install.packages("disk.frame") suppressPackageStartupMessages(library(disk.frame)) library(nycflights13) 패키지 주요 아이디어 메모리보다 많은 데이터를 각각의 chunks로 분해하여 하나의 폴더 안에 저장한다. (HDD 디스크 사용) 자세한 셜명은 Giuhub를 참고 (https://github.com/xiaodaigh/disk.frame) Setup 실습 환경을 구성한다. setup_disk.frame() ## The number of workers available for disk.frame is 1 # this allows large datasets to be transferred between sessions options(future.

Linux 기본 명령어

개요 기본 문법을 다뤄봅니다. (추가적으로 올리고 싶을 때마다 정리해서 올릴 예정입니다.) unzip 만약에 여러개의 zip 파일을 받는다면 어떻게 해야할까? 다음과 같이 할 수도 있다. $ unzip a.zip b.zip c.zip d.zip 코드가 조금 길어지는 것 같다. 간단하게 하면 다음과 같이 할 수도 있다. 캐글 대회 데이터를 직접 응용하도록 한다. $ kaggle competitions download -c sf-crime Warning: Looks like you're using an outdated API Version, please consider updating (server 1.5.10 / client 1.

CI CD Pipeline for Data Science

개요 최근 밑바닥부터 시작하는 딥러닝 3로 수업을 수강생들과 진행하며 배포에 관한 내용이 있었습니다. (p 98). 구체적인 방법은 소개하지 않아서, 보충 자료로 작성하였다. 전 단계별로 진행하는데, 깃허브에 관한 기본적인 내용 및 코드는 알고 있다는 전제하에 작성하였다. 깃허브를 처음 접하시는 분들은 Github Project 포트폴리오를 참고하기를 바란다. 필요한 것 Github: https://github.com/ Travis-CI: https://www.travis-ci.com/ Codecov: https://about.codecov.io/ PyPI: https://pypi.org/ Steps - Travis Logins Travis에 깃허브로 로그인 한다. 아래와 같은 화면이 나오면 로그인이 잘 된 것이다. 영문 내용을 잘 읽어본다.

Pandas read_csv skiprows 활용

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 문제 개요 Kaggle 데이터 New York City Taxi Fare Prediction 데이터를 구글 코랩에서 Loading 하는 중 메모리 문제가 발생함 계통추출(Systematic Sampling)을 통해 데이터를 불러오기로 함 예제 실습 아래 예제를 통해서 실제로 데이터가 줄어드는지 확인을 해본다.

ACEA Water, Intro to Time Series Forecasting

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 Overview Can you build a model to predict the amount of water in each waterbody to help preserve this natural resource? This is an Analytics competition where your task is to create a Notebook that best addresses the Evaluation criteria below.

Tutorial of Ranzcr EDA

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 Competition https://www.kaggle.com/c/ranzcr-clip-catheter-line-classification Intro Thanks to RANZCR/resnext50_32x4d starter [training] Please visit here and upvote import os import pandas as pd from matplotlib import pyplot as plt import seaborn as sns Check File Size Check Each Size of Dataset Folder in this competition train_records = 4.

Kaggle API on Mac/Linux

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 개요 새로운 학생들과 Kaggle 경진대회를 나가게 되었다. 참여 경진대회 VinBigData Chest X-ray Abnormalities Detection 기존에는 주로 Google Colab에서 했지만, 대용량 데이터부터 터미널로 다운로드 받아야 한다. 핵심 문장 kaggle.json 파일을 각 OS에 맞게 옮긴다. Kaggle API 다운로드 계정 [Profile]-[My Account]를 클릭 후, 아래 화면에서 Kaggle API를 다운로드 받는다.

Kaggle House Price ML

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 공지 현재 책 출판 준비 중입니다. 구체적인 설명은 책이 출판된 이후에 요약해서 올리도록 합니다. 이전 글 Kaggle Feature Engineering - House Price URL: https://dschloe.github.io/kaggle/kaggle_feature_engineering/ 이전 글에서, Kaggle API, Feature Engineering에 대한 코드를 정리했으니, 참고하기를 바란다.

Kaggle Feature Engineering - House Price

강의 홍보 취준생을 위한 강의를 제작하였습니다. 본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다. 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다. [비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기 공지 현재 책 출판 준비 중입니다. 구체적인 설명은 책이 출판된 이후에 요약해서 올리도록 합니다. Kaggle API Kaggle API를 활용한 데이터를 수집하는 예제는 Feature Engineering with Housing Price Prediction - Numerical Features 에서도 확인할 수 있기 때문에 생략 합니다.

ml 개발환경 세팅

개요 M1에서 GPU를 활용한 딥러닝을 수행하는 예제 코드를 구현해봤다. 참고: M1 tensorflow Test Preview Apple 공식 Repo대로 설치를 하면 잘 될 것이라 생각했지만, 생각지 못한 복병을 만났다. 어떻게 해결했는지 그 과정에 대해 잠깐 기술하려고 한다. Rosetta 너는 누구니? 그동안 맥북은 인텔 기반의 Mac 프로세서를 사용해왔고, M1은 애플이 개발한 프로세서를 처음 도입한 것이다. 그런데, 이게 왜 문제가 되는 것일까?