我有一个使用HDFS作为存储不足的分布式文件系统的群集,但是我刚刚读到了关于 alluxio 的信息,它既快速又灵活。因此,我的问题是:我应该将Alluxio与HDFS一起使用还是将Alluxio替代HDFS? (我在他们的站点中看到用于存储文件系统的共享存储可以是网络文件系统(NFS)。因此,我认为不需要HDFS。如果出错,请纠正我)。

在哪种模式下性能更好:具有Alluxio或Alluxio stanalone的HDFS(我的意思是“独立”一词将在集群中单独使用,而不是在本地使用)。

最佳答案

来自Alluxio维护者的回复。

首先,Alluxio是而不是替代HDFS。相反,它是在其他分布式/云存储系统(包括HDFS,S3,Azure对象存储和其他可能的选择)之上的新抽象层。对于您的情况,如果您的数据已经在HDFS中,则可能仍将HDFS保留为Alluxio的持久数据层。

用户将Alluxio放在图片中的典型场景并看到了明显的好处,包括:

  • 您的物理数据不在您的计算机中。例如,您的大数据引擎正在从S3或其他对象存储中读取数据。在这种情况下,通过将Alluxio与计算节点一起部署,可以使Alluxio充当文件系统级缓存,从而避免跨网络重复获取数据。参见http://www.alluxio.org/overview/remote-data-acceleration
  • 您正在管理多个存储,并希望公开一个数据访问层以简化管理。例如,可以将多个S3 /存储桶“装载”到一个Alluxio部署中,以便它们在同一 namespace 下显示为不同的目录。参见http://www.alluxio.org/overview/storage-unification

  • 关于您的原始性能问题。答案是,这取决于。如果您的HDFS远离计算,则可以期望获得良好的性能提升。我还看到了HDFS出现瓶颈的情况,Alluxio可能还有助于减少负载并为某些关键任务工作提供良好的SLA。

    关于hadoop - 具有/不具有HDFS的Alluxio,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52098711/

    10-12 23:45