(AWS Project) BigData with Hadoop 01 - Overview

Page content

I. Overview

  • Amazon EMRApache 하둡Spark를 쉽고 빠르며 비용 효율적으로 실행하여 대량의 데이터를 처리할 수 있게 해주는 관리형 서비스입니다.
  • Amazon EMRPresto, Hive, Pig, HBase 등과 같은 강력하고 입증된 하둡 도구를 지원한다.
  • 이 프로젝트에서는 모든 기능이 작동하는 하둡 클러스터를 배포하여 몇 분 만에 로그 데이터를 분석할 준비를 갖추게 된다.
  • 먼저 Amazon EMR 클러스터를 시작한 다음, HiveQL 스크립트를 사용하여 Amazon S3 버킷에 저장된 샘플 로그 데이터를 처리한다. HiveQL은 데이터 웨어하우징과 분석을 위한 SQL 유사 스크립트 언어이다.
  • 그런 다음 비슷한 설정을 사용하여 자체 로그 파일을 분석할 수 있다.

II. 시작하기 전에 필요한 조건

  • 먼저 계정을 만들어야 한다. (참조: AWS - 회원가입 및 주요 서비스 간략 소개)
  • 요금 추정: 이 프로젝트를 완료하는 데 1.05 USD의 비용이 들 것으로 예상됩니다. 이는 AWS 프리 티어 한도 내에서 사용하고, 권장 구성을 따르며, 프로젝트에 사용된 모든 리소스를 생성 후 1시간 이내에 종료한다고 가정할 때의 비용입니다. 고객의 사용 사례에 따라 다른 구성이 필요할 수 있으며 이는 청구서에 영향을 미칠 수 있습니다. 요금 계산기를 사용하면 요구 사항에 맞춰 비용을 추정할 수 있습니다.
    • 꼭, 1시간 이내에 종료한다
    • 따라서, 단계별로 정리하는 습관이 중요하며, 가급적 사진 캡쳐하는 것도 좋다.
    • 영어 원서를 읽는데 부담감이 적다면, 다운로드: EMR 사용자 가이드받는 것을 추천한다.

III. Get Started

  • 이 튜토리얼은 빠른 생성을 사용하여 샘플 Amazon EMR 클러스터를 생성하는 과정을 안내한다.
  • AWS Management Console의 옵션, 클러스터를 생성한 후 Hive Script를 제출한다.
  • Amazon Simple Storage Service(Amazon S3)에 저장된 샘플 데이터를 처리한다.
  • 이 튜토리얼은 프로덕션 환경을 위한 것이 아니며 개발환경 구성(configuration) 옵션에 대해서는 다루지 않는다.
  • 가능한 한 빠르게 클러스터를 설정할 수 있도록 하기 위한 것이다.
  • 만약에 에러 등 문제가 발생이되면, Discussion Forum에 질의를 합니다.
  • 비용은 지역마다 다릅니다만, 일반적으로 클러스터 구성 후에 1시간 이내로 종료하면 비용 부담은 발생하지 않는다.
  • 처음 사용자인데, 실수로 비용이 과다하게 발생이 되면 면제받을 수 있다.
  • 자세한 것은 Amazon S3 요금 정책을 확인한다.

이제 본격적으로 AWS에서 Hadoop을 구성해보자.