(AWS Project) BigData with Hadoop 01 - Overview
Page content
I. Overview
Amazon EMR
은Apache 하둡
과Spark
를 쉽고 빠르며 비용 효율적으로 실행하여 대량의 데이터를 처리할 수 있게 해주는 관리형 서비스입니다.Amazon EMR
은Presto
,Hive
,Pig
,HBase
등과 같은 강력하고 입증된 하둡 도구를 지원한다.- 이 프로젝트에서는 모든 기능이 작동하는 하둡 클러스터를 배포하여 몇 분 만에 로그 데이터를 분석할 준비를 갖추게 된다.
- 먼저
Amazon EMR
클러스터를 시작한 다음,HiveQL
스크립트를 사용하여Amazon S3
버킷에 저장된 샘플 로그 데이터를 처리한다.HiveQL
은 데이터 웨어하우징과 분석을 위한 SQL 유사 스크립트 언어이다. - 그런 다음 비슷한 설정을 사용하여 자체 로그 파일을 분석할 수 있다.
II. 시작하기 전에 필요한 조건
- 먼저 계정을 만들어야 한다. (참조: AWS - 회원가입 및 주요 서비스 간략 소개)
- 요금 추정: 이 프로젝트를 완료하는 데
1.05 USD
의 비용이 들 것으로 예상됩니다. 이는 AWS 프리 티어 한도 내에서 사용하고, 권장 구성을 따르며, 프로젝트에 사용된 모든 리소스를 생성 후1시간 이내에 종료
한다고 가정할 때의 비용입니다. 고객의 사용 사례에 따라 다른 구성이 필요할 수 있으며 이는 청구서에 영향을 미칠 수 있습니다. 요금 계산기를 사용하면 요구 사항에 맞춰 비용을 추정할 수 있습니다.꼭, 1시간 이내에 종료한다
- 따라서, 단계별로 정리하는 습관이 중요하며, 가급적
사진 캡쳐
하는 것도 좋다. - 영어 원서를 읽는데 부담감이 적다면, 다운로드: EMR 사용자 가이드받는 것을 추천한다.
III. Get Started
- 이 튜토리얼은 빠른 생성을 사용하여 샘플 Amazon EMR 클러스터를 생성하는 과정을 안내한다.
- AWS Management Console의 옵션, 클러스터를 생성한 후 Hive Script를 제출한다.
- Amazon Simple Storage Service(Amazon S3)에 저장된 샘플 데이터를 처리한다.
- 이 튜토리얼은 프로덕션 환경을 위한 것이 아니며 개발환경 구성(configuration) 옵션에 대해서는 다루지 않는다.
- 가능한 한 빠르게 클러스터를 설정할 수 있도록 하기 위한 것이다.
- 만약에 에러 등 문제가 발생이되면, Discussion Forum에 질의를 합니다.
- 비용은 지역마다 다릅니다만, 일반적으로 클러스터 구성 후에 1시간 이내로 종료하면 비용 부담은 발생하지 않는다.
- 처음 사용자인데, 실수로 비용이 과다하게 발생이 되면 면제받을 수 있다.
- 자세한 것은 Amazon S3 요금 정책을 확인한다.
이제 본격적으로
AWS에서 Hadoop
을 구성해보자.