我正在学习在hadoop集群上工作。我在hadoop流上工作了一段时间,在那里我在perl / python中编码了map-reduce脚本并运行了这项工作。
但是,对于运行Java map reduce作业,我没有找到任何好的解释。
例如:
我有以下程序-
http://www.infosci.cornell.edu/hadoop/wordcount.html
有人可以告诉我如何实际编译该程序并运行该作业。
最佳答案
创建一个目录来保存已编译的类:
编译您的类(class):
从已编译的类创建一个jar文件:
为您的输入创建目录,并将所有输入文件复制到其中,然后按以下方式运行作业:
作业的输出将放在$ {OUTPUTDIR}目录中。该目录是由Hadoop作业创建的,因此在运行该作业之前,请确保该目录不存在。
有关完整示例,请参见here。