我正在使用Apache Nuch 2.3,Hadoop 1.2.1(3个数据节点),HBase 0.94,Solr 4.8。为了运行apache,坚果是分布式模式。我做了下面的步骤
其中,hbase_table是nutch将在其中存储数据的hbase表的名称。
命令启动后,将为每个phbase启动Mapreduce作业,即注入(inject),生成,fetech,dedup,sorlrindex。所有这些mapreduce作业均完成,没有任何错误。但是当我从HDFS检查时,hbase_table中没有数据。配置问题在哪里。不幸的是,分布式模式下的Apache胡言乱语指南并不完全可用(根据我的搜索)
最佳答案
在apache nutch的分布式模式下,您必须检查tasktracker的日志。爬网文档的详细信息应该在此处,而不在mapreduce日志中。其网址将类似于(如果您使用的是默认配置)http://data-node-ip:50060/logs/hadoop-{user-name}-tasktracker-{machine-name}.log