Skip to content
Edward KIM edited this page Feb 3, 2013 · 9 revisions

MapReduce Hands On Lab

M2Eclipse Eclipse 플러그인 설치

프로젝트를 빌드하고 패키징 하기 위해서 M2Eclipse 플러그인 설치를 참고하여 플러그인을 설치합니다.

Eclipse Project

Eclipse에서 MapReduce 프로젝트를 개발하기 위해서 Eclipse Project Import를 참고하여 Eclipse에서 프로젝트를 구성합니다.

WordCount MapReduce Job

MapReduce를 본 프로젝트 템플릿을 이용하여 다음을 순서대로 WordCount MapReduce Job을 작성합니다.

  1. WordCount MapReduce Job을 생성할 패키지를 생성하십시오.
  2. WordCountDriver를 생성하십시오.
  3. WordCountDriver의 커맨드 라인 파라미터를 처리하기 위한 방법을 결정하십시오.
  4. WordCountMapper를 생성하십시오.
  5. WordCountReducer를 생성하십시오.
  6. WordCountDriver에 Job을 생성하고 파라미터를 처리하십시오.
  7. WordCountDriver에 입력 파일 및 출력 파일의 포맷(예; Text, IntWritable)을 설정하고 Mapper와 Reducer를 설정하십시오.
  8. WordCountMapper와 WordCountReducer를 작성하십시오.
  9. Maven을 이용하여 패키징(#mvn package)을 하십시오.
  10. 생성한 JAR 파일(target/mapreduce-template-0.1-SNAPSHOT.jar)을 Hadoop Cluster에 업로드 하십시오.
  11. Hadoop Cluster의 namenode로 접속하여 MapReduce Job을 실행하십시오.

ETL MapReduce Job

이제 WordCount MapReduce Job을 작성한 후 다음의 순서대로 요구사항에 맞추어 MapReduce를 작성합니다.

  1. Clean ETL MapReduce Job
  2. Union ETL MapReduce Job
  3. Group By ETL MapReduce Job
  4. Grep ETL MapReduce Job
  5. Replace ETL MapReduce Job
  6. Filter ETL MapReduce Job

MRUnit을 이용하여 단위 테스트하기

MRUnit을 이용하여 작성중인 MapReduce를 테스트하려면 Hadoop 없이 MapReduce 테스트 하기를 참고하도록 합니다.

Eclipse에서 JavaDoc 생성하기

작성한 소스코드의 API를 생성하기 위해서 JavaDoc 생성하기를 참고하여 JavaDoc을 생성합니다.