AWS

(AWS Project) BigData with Hadoop 02 - 사전작업

I. Amazon S3 Bucket 생성 주요 요건 Hive 쿼리의 출력 데이터를 저장할 Amazon S3 버킷과 폴더를 지정한다. 자습서에서는 default log location을 사용하지만, 원하는 경우에는 custom location을 지정할 수 있다. 하둡의 요구사항 중, bucket과 folder names 다음과 같은 규칙을 적용한다. letters, numbers, periods(.), and hyphens(-) 등을 입력한다. 마지막 글자는 숫자로 끝맺음을 하지 않는다. 이러한 요구 사항을 충족하는 폴더에 이미 액세스할 수 있는 경우 이 튜토리얼에 해당 폴더를 사용하십시오. 출력 폴더는 비어 있어야 한다.

(AWS Project) BigData with Hadoop 01 - Overview

I. Overview Amazon EMR은 Apache 하둡과 Spark를 쉽고 빠르며 비용 효율적으로 실행하여 대량의 데이터를 처리할 수 있게 해주는 관리형 서비스입니다. Amazon EMR은 Presto, Hive, Pig, HBase 등과 같은 강력하고 입증된 하둡 도구를 지원한다. 이 프로젝트에서는 모든 기능이 작동하는 하둡 클러스터를 배포하여 몇 분 만에 로그 데이터를 분석할 준비를 갖추게 된다. 먼저 Amazon EMR 클러스터를 시작한 다음, HiveQL 스크립트를 사용하여 Amazon S3 버킷에 저장된 샘플 로그 데이터를 처리한다. HiveQL은 데이터 웨어하우징과 분석을 위한 SQL 유사 스크립트 언어이다.

AWS - 회원가입 및 주요 서비스 간략 소개

I. Overview 클라우드 서비스로써, AWS는 모든 IT 개발자에게 필수 Skill set과 같다. 데이터 분석가, 싸이언티스트에게도 AWS는 반드시 알아야 할 서비스이다. 매우 유명한 서비스이기에 자세한 내용은 다루지 않는다. 다만, 데이터 분석가라면 알아두어야 할 필수 서비스만 간단히 다루도록 할 예정이다. 간단하게 회원가입을 진행하도록 하자. II. Registration Step 1. 웹사이트 접속 및 계정 생성 웹사이트: https://aws.amazon.com/ko/ 우측 상단의 [AWS 계정 생성]을 클릭한다. Step 2. [계정 생성] 페이지에서 이메일 주소, 암호, AWS 계정 이름을 입력하고 [계속] 버튼을 클릭한다.