hadoop - Hadoop数据节点经常死掉

我们的Hadoop集群是5个数据节点和2个名称节点的集群。流量实际上非常高，并且一些节点经常出现故障。但是过了一会儿他们又回来了。有时需要很长时间，要花半小时以上才能恢复生命。

几乎没有其他DN具有更多线程。这是配置问题吗？
数据不写密集。 MR作业每20分钟运行一次。

在运行状况监控器运行了两天(以半小时为间隔进行采样)之后，我们知道节点在磁盘验证过程中每6小时运行一次，因此它们会死亡。因此，现在节点可以预期地死亡。但是，为什么它们在磁盘验证过程中死亡？是否有任何方法可以防止节点在磁盘验证期间死亡？

最佳答案

Clouedera's capacity planning对此有所了解。如果您在繁重的负载下看到“使用firstBadLink的连接不良ack”，“连接错误的不良连接”，“没有通往主机的路由”或“无法获取阻止” IO异常，则很可能是由于网络故障所致。

关于hadoop - Hadoop数据节点经常死掉，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/23516112/