我正在使用Apache Nuch 2.3,Hadoop 1.2.1(3个数据节点),HBase 0.94,Solr 4.8。为了运行apache,坚果是分布式模式。我做了下面的步骤

  • 转到运行时/部署目录
  • 复制了apache-nutch-2.3.jar以部署目录
  • 运行此命令 runtime / deploy / bin / crawl urls / hbase_table http://solrHost:8983/solr 1

  • 其中,hbase_table是nutch将在其中存储数据的hbase表的名称。
    命令启动后,将为每个phbase启动Mapreduce作业,即注入(inject),生成,fetech,dedup,sorlrindex。所有这些mapreduce作业均完成,没有任何错误。但是当我从HDFS检查时,hbase_table中没有数据。配置问题在哪里。不幸的是,分布式模式下的Apache胡言乱语指南并不完全可用(根据我的搜索)

    最佳答案

    在apache nutch的分布式模式下,您必须检查tasktracker的日志。爬网文档的详细信息应该在此处,而不在mapreduce日志中。其网址将类似于(如果您使用的是默认配置)
    http://data-node-ip:50060/logs/hadoop-{user-name}-tasktracker-{machine-name}.log

    07-26 04:07