我发现了类似的问题
Hadoop HDFS is not distributing blocks of data evenly

但我的问题是何时复制因子= 1

我仍然想了解为什么HDFS无法在群集节点之间平均分配文件块?当我在此类文件上加载/运行数据框操作时,这将导致从一开始就出现数据偏斜。我想念什么吗?

最佳答案

即使复制因子为1,文件仍会拆分并以HDFS块大小的倍数存储。积木放置是尽力而为的,并非完全平衡。复制放置3会选择一个随机节点,然后是同一机架上的另一个节点,然后是随机离开机架的另一个节点

您需要弄清文件的大小以及要查看数据是否正在拆分的位置

注意:并非所有文件格式都是可拆分的

关于hadoop - hdfs put/moveFromLocal是否不在数据节点之间分配数据?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59363801/

10-17 03:12