bin/hadoop jar hadoop-examples-1.1.2.jar teragen 80000000 terasort/1-input
对teragen产生的数据进行排序,方法如下所示:
bin/hadoop jar hadoop-examples-1.1.2.jar terasort terasort/1-input terasort/1G-output1
一个reduce任务在一台机器上运行。hadoop默认只开启一个reduce任务,运行完整个任务,时间在14min左右,将reduce任务数调至2的时候,hadoop的运行时间缩短到了11~12min左右。
在terasort产生数据的时候,会在input目录中产生一个_partition.lst文件,这个文件是terasort产生的采样分区文件,每个reduce根据这个文件对数据进行并发的分段排序,并将结果存入到HDFS上。

在master的mapred-site.xml中设置reduce任务的数量。
     
  否则默认只会有一个reduce任务在运行。
 
 当datanode采用btrfs的时候,发现datanode根本起不来,我查看namenode的信息,并没有相关的日志,后来到datanode节点上看发现,是由于权限的问题,创建完btrfs之后,对于该目录,拥有者并没有写入文件的权限。所以到该目录下使用
chmod u+w /mnt/sdb1即可实现对文件的写入了。
08-31 21:26