BigData/Hadoop

hadoop maven wordcount 예제 실행

sidcode 2013. 11. 27. 23:53

wordcount maven java 관련 참고사이트

http://hadoopi.wordpress.com/2013/05/25/setup-maven-project-for-hadoop-in-5mn/

위 사이트에서 maven jar파일까지 완성 하시면됩니다.


# HDFS구성

$ hadoop dfs -mkdir /input

$ hadoop dfs -mkdir /oupt


# /home/hadoop/input/안에 test01 (카운트 할 내용이들어간 파일)

$ mkdir ~/input

$ vi /home/hadoop/input/test01

-내용

hadoop,sidcode,haddop,sidcode,sidcode,feirei


# 생성한 파일 hdfs 로 넣기

$ hadoop dfs -put /home/hadoop/input/test01 /input

$ hadoop dfs -ls /input

- 아래 내용나오면 정상 적으로 옮겨진것.

-rw-r--r--   3 hadoop supergroup         45 2013-11-27 23:29 /input/test01


# hadoop jar 실행 (* example.hadoopi.WordCount 는 자신이 생성한 패키지.클래스명 입니다.) 

$ hadoop jar example.hadoopi.*.jar example.hadoopi.WordCount /input /output


# output 내용 확인 두가지

- 콘솔

$ hadoop dfs -cat /output/*00000


- 웹브라우져로 확인.

http://localhost:50070/dfshealth.jsp 접속 

Browse the filesystem> output > part-r-00000 

위 스텝에 맞추어 들어가면 카운트 처리된 내용이 보입니다.