我们的Hadoop集群是5个数据节点和2个名称节点的集群。流量实际上非常高,并且一些节点经常出现故障。但是过了一会儿他们又回来了。有时需要很长时间,要花半小时以上才能恢复生命。

几乎没有其他DN具有更多线程。这是配置问题吗?
数据不写密集。 MR作业每20分钟运行一次。

在运行状况监控器运行了两天(以半小时为间隔进行采样)之后,我们知道节点在磁盘验证过程中每6小时运行一次,因此它们会死亡。因此,现在节点可以预期地死亡。但是,为什么它们在磁盘验证过程中死亡?是否有任何方法可以防止节点在磁盘验证期间死亡?

最佳答案

Clouedera's capacity planning对此有所了解。如果您在繁重的负载下看到“使用firstBadLink的连接不良ack”,“连接错误的不良连接”,“没有通往主机的路由”或“无法获取阻止” IO异常,则很可能是由于网络故障所致。

关于hadoop - Hadoop数据节点经常死掉,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/23516112/

10-11 09:14