我有一个使用HDFS作为存储不足的分布式文件系统的群集,但是我刚刚读到了关于 alluxio 的信息,它既快速又灵活。因此,我的问题是:我应该将Alluxio与HDFS一起使用还是将Alluxio替代HDFS? (我在他们的站点中看到用于存储文件系统的共享存储可以是网络文件系统(NFS)。因此,我认为不需要HDFS。如果出错,请纠正我)。
在哪种模式下性能更好:具有Alluxio或Alluxio stanalone的HDFS(我的意思是“独立”一词将在集群中单独使用,而不是在本地使用)。
最佳答案
来自Alluxio维护者的回复。
首先,Alluxio是而不是替代HDFS。相反,它是在其他分布式/云存储系统(包括HDFS,S3,Azure对象存储和其他可能的选择)之上的新抽象层。对于您的情况,如果您的数据已经在HDFS中,则可能仍将HDFS保留为Alluxio的持久数据层。
用户将Alluxio放在图片中的典型场景并看到了明显的好处,包括:
关于您的原始性能问题。答案是,这取决于。如果您的HDFS远离计算,则可以期望获得良好的性能提升。我还看到了HDFS出现瓶颈的情况,Alluxio可能还有助于减少负载并为某些关键任务工作提供良好的SLA。
关于hadoop - 具有/不具有HDFS的Alluxio,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52098711/