VSCode - Remote SSH 설치 putty 같은 SSH 툴로 vi 에디터 이용해서 수정 매우 불편함 vscode에서 직접 EC2에 접속하도록 한다. AWS Extension 확장팩 설치 아래와 같이 확장팩을 설치한다. Remote SSH Extension 확장팩 설치 Remote - SSH 확장팩을 아래와 같이 설치를 진행하도록 한다. 설치가 완료가 되면 SSH 연결할 호스트를 입력한다. ssh [계정]@[ip주소] ssh aa@1.1.1.1 /User/evan/.ssh/config 선택한다. 환경설정 config 파일을 연다. 설정 옵션 클릭 > ~/.ssh/config 클릭 config 파일이 열리는지 확인한다. config 파일 작성 / 수정 Host : 주소 이름 (띄어쓰기 금지) 변경 가능 HostName : IP/DNS 부여받은 IP를 입력 User : 계정 이름 Port : 연결할 포트 번호를 말하며, 기본포트는 22이다.
멀티캠퍼스 AWS 서버 관련 정리 실습용 서버 실행 https://console.aws.amazon.com/console/home 계정 ID(12자리) 또는 계정 별칭 : your account ID : your id / PW : your password 실습용 서버 사용자 정보 참조하여 로그인 (강의 때 공유)
비밀번호 변경
본인 비밀번호는 반드시 기억한다. (강사비번 : ****) Slack 강사 DM으로 남겨주세요. EC2 실행 우측 상단 리전 정보를 ‘오사카’로 변경 후 서비스 검색창에서 EC2 검색 변경된 상태에서 EC2 검색 위 서비스창에서 EC2 클릭 및 아래 화면에서 실행 표시된 인스턴스 실행 장비할당 관련 이름(Name) 순으로 정렬 후 할당된 서버 선택 (강의 때 참조) 필수 확인 서버의 경우 수업 시작 30분 전인 08:30부터 19시 까지 사용이 가능합니다.
I. Getting Started 처음 이 페이지를 방문했다면, 반드시 사전작업을 완료하기를 바란다. (AWS Project) BigData with Hadoop 02 - 사전작업 (AWS Project) BigData with Hadoop 03 - Amazon EMR Cluster 시작 (AWS Project) BigData with Hadoop 04 - Allow SSH Access II. What to do now Hive Script를 제출하는 방법에 대해 준비하였다. 를러스터를 생성할 때 단계를 지정하거나 마스터 노드에 연결하고 로컬 파일 시스템에서 스크립트를 생성하고 명렁어를 사용하여 실행할 수 있다. III.
I. Getting Started 처음 이 페이지를 방문했다면, 반드시 사전작업을 완료하기를 바란다. (AWS Project) BigData with Hadoop 02 - 사전작업 (AWS Project) BigData with Hadoop 03 - Amazon EMR Cluster 시작 II. What to do now Client에서 SSH를 통해 클러스터에 접근하는 방법에 대해 다룬다. (1) Warning 보안 그룹은 클러스터에 대한 인바운드 및 아웃바운드 트래픽을 제어하는 가상 방화벽 역할을 한다. 첫 번째 클러스터를 생성하면 Amazon EMR은 마스터 인스턴스, ElasticMapReduce-master와 연결된 기본 Amazon EMR 관리 Security Group 및 핵심 노드 및 태스크 노드와 연결된 Security Group ElasticMapReduce-slave를 생성한다.
I. Getting Started 처음 이 페이지를 방문했다면, 반드시 사전작업을 완료하기를 바란다. (AWS Project) BigData with Hadoop 02 - 사전작업 II. What to do now 이번 포스트에서는 비교적 간단하게 빅데이터 클러스터를 시작하는 과정을 진행한다. 막상 해보면 어려운 것은 아니지만, 언제나 그렇듯이 처음 할 때는 늘 시행착오를 겪게 마련이다. Amazon EMR console창에 있는 Quick Options을 사용한다. Quick Options에 있는 다양한 절차들에 대해 확인이 필요하면 Summary of Quick Options에서 확인해본다. III. Sample Cluster 시작 먼저 AWS에 있는 AWS Management Console을 클릭하여 실행하도록 한다.
I. Amazon S3 Bucket 생성 주요 요건 Hive 쿼리의 출력 데이터를 저장할 Amazon S3 버킷과 폴더를 지정한다. 자습서에서는 default log location을 사용하지만, 원하는 경우에는 custom location을 지정할 수 있다. 하둡의 요구사항 중, bucket과 folder names 다음과 같은 규칙을 적용한다. letters, numbers, periods(.), and hyphens(-) 등을 입력한다. 마지막 글자는 숫자로 끝맺음을 하지 않는다. 이러한 요구 사항을 충족하는 폴더에 이미 액세스할 수 있는 경우 이 튜토리얼에 해당 폴더를 사용하십시오. 출력 폴더는 비어 있어야 한다.
I. Overview Amazon EMR은 Apache 하둡과 Spark를 쉽고 빠르며 비용 효율적으로 실행하여 대량의 데이터를 처리할 수 있게 해주는 관리형 서비스입니다. Amazon EMR은 Presto, Hive, Pig, HBase 등과 같은 강력하고 입증된 하둡 도구를 지원한다. 이 프로젝트에서는 모든 기능이 작동하는 하둡 클러스터를 배포하여 몇 분 만에 로그 데이터를 분석할 준비를 갖추게 된다. 먼저 Amazon EMR 클러스터를 시작한 다음, HiveQL 스크립트를 사용하여 Amazon S3 버킷에 저장된 샘플 로그 데이터를 처리한다. HiveQL은 데이터 웨어하우징과 분석을 위한 SQL 유사 스크립트 언어이다.
I. Overview 클라우드 서비스로써, AWS는 모든 IT 개발자에게 필수 Skill set과 같다. 데이터 분석가, 싸이언티스트에게도 AWS는 반드시 알아야 할 서비스이다. 매우 유명한 서비스이기에 자세한 내용은 다루지 않는다. 다만, 데이터 분석가라면 알아두어야 할 필수 서비스만 간단히 다루도록 할 예정이다. 간단하게 회원가입을 진행하도록 하자. II. Registration Step 1. 웹사이트 접속 및 계정 생성 웹사이트: https://aws.amazon.com/ko/ 우측 상단의 [AWS 계정 생성]을 클릭한다. Step 2. [계정 생성] 페이지에서 이메일 주소, 암호, AWS 계정 이름을 입력하고 [계속] 버튼을 클릭한다.