(AWS Project) BigData with Hadoop 01 - Overview
Page content

I. Overview
Amazon EMR은Apache 하둡과Spark를 쉽고 빠르며 비용 효율적으로 실행하여 대량의 데이터를 처리할 수 있게 해주는 관리형 서비스입니다.Amazon EMR은Presto,Hive,Pig,HBase등과 같은 강력하고 입증된 하둡 도구를 지원한다.- 이 프로젝트에서는 모든 기능이 작동하는 하둡 클러스터를 배포하여 몇 분 만에 로그 데이터를 분석할 준비를 갖추게 된다.
- 먼저
Amazon EMR클러스터를 시작한 다음,HiveQL스크립트를 사용하여Amazon S3버킷에 저장된 샘플 로그 데이터를 처리한다.HiveQL은 데이터 웨어하우징과 분석을 위한 SQL 유사 스크립트 언어이다. - 그런 다음 비슷한 설정을 사용하여 자체 로그 파일을 분석할 수 있다.
II. 시작하기 전에 필요한 조건
- 먼저 계정을 만들어야 한다. (참조: AWS - 회원가입 및 주요 서비스 간략 소개)
- 요금 추정: 이 프로젝트를 완료하는 데
1.05 USD의 비용이 들 것으로 예상됩니다. 이는 AWS 프리 티어 한도 내에서 사용하고, 권장 구성을 따르며, 프로젝트에 사용된 모든 리소스를 생성 후1시간 이내에 종료한다고 가정할 때의 비용입니다. 고객의 사용 사례에 따라 다른 구성이 필요할 수 있으며 이는 청구서에 영향을 미칠 수 있습니다. 요금 계산기를 사용하면 요구 사항에 맞춰 비용을 추정할 수 있습니다.꼭, 1시간 이내에 종료한다- 따라서, 단계별로 정리하는 습관이 중요하며, 가급적
사진 캡쳐하는 것도 좋다. - 영어 원서를 읽는데 부담감이 적다면, 다운로드: EMR 사용자 가이드받는 것을 추천한다.
III. Get Started
- 이 튜토리얼은 빠른 생성을 사용하여 샘플 Amazon EMR 클러스터를 생성하는 과정을 안내한다.
- AWS Management Console의 옵션, 클러스터를 생성한 후 Hive Script를 제출한다.
- Amazon Simple Storage Service(Amazon S3)에 저장된 샘플 데이터를 처리한다.
- 이 튜토리얼은 프로덕션 환경을 위한 것이 아니며 개발환경 구성(configuration) 옵션에 대해서는 다루지 않는다.
- 가능한 한 빠르게 클러스터를 설정할 수 있도록 하기 위한 것이다.
- 만약에 에러 등 문제가 발생이되면, Discussion Forum에 질의를 합니다.
- 비용은 지역마다 다릅니다만, 일반적으로 클러스터 구성 후에 1시간 이내로 종료하면 비용 부담은 발생하지 않는다.
- 처음 사용자인데, 실수로 비용이 과다하게 발생이 되면 면제받을 수 있다.
- 자세한 것은 Amazon S3 요금 정책을 확인한다.
이제 본격적으로
AWS에서 Hadoop을 구성해보자.