1、 对于一个新手来说,简单地进行hadoop安装和wordcount demo程序的验证都是件十分不易的事情。安装完之后把环境变量写进/etc/profile,并source一下。
2、另外需要注意的是:
通过hadoop dfs -copyFromLocal /tmp/test.txt firstTest 是上传测试文件到 firstTest里。 firstTest 为一个文件
若想上传多个文件到一个目录下,则需要创建一个目录:hadoop dfs -mkdir thirdTest
然后可以上传多个文件到这个目录底下,然后将多个文件做为输入,来统计单词个数
假如有三个文件夹在/tmp/目录下,如下面所示为test1.txt、test2.txt、test.txt
root@cloud1:/tmp# ls hadoop-root Jetty_0_0_0_0_50060_task____.2vcltf hadoop-root-datanode.pid Jetty_0_0_0_0_50070_hdfs____w2cu08 hadoop-root-jobtracker.pid Jetty_0_0_0_0_50075_datanode____hwtdwq hadoop-root-namenode.pid Jetty_0_0_0_0_50090_secondary____y6aanv hadoop-root-secondarynamenode.pid test1.txt hadoop-root-tasktracker.pid test2.txt hsperfdata_root test.txt Jetty_0_0_0_0_50030_job____yn7qmk
上传三个测试文件到thirdTest目录下
hadoop dfs -copyFromLocal /tmp/test*.txt thirdTest
除此之外,需要注意,如果你上次使用过firstTest文件。这次又把测试文件的内容上传到这个文件夹时就会出现提示,文件夹已经存在,这时就需要重新使用别的文件名,比如secondTest等
3、执行wordcount
hadoop jar hadoop-examples-1.0.4.jar wordcount thirdTest result
注意:在执行的时候可能会提醒你result 这个文件已经存在,这说明上一次你在输出结果的时候已经使用到了result 这个文件,所以要么删掉result这个文件夹。,要么输出结果到其他文件夹里。比如说 resultn等。