我一直在研究将分布式文件系统与专用服务器一起使用而不是与Amazon S3一起使用的想法,结果无非是令人头疼!

我的项目具有以下特征/要求:

  • 用户文件存储在专用服务器中。每个文件存储在2个不同的计算机中,这些计算机位于不同的数据中心(彼此之间150-200英里)
  • 我正在使用Amazon RDS托管关联的mysql数据库(*)。相当紧凑(仅保留ID/文件元数据)
  • 文件/数据约为50TB。自然,数据确实会改变,并且肯定会随着时间而增长


  • 我的问题是:是否有一个好的通用分布式并行容错文件系统,它具有以下特征:
  • 稳定且相当快(上传/下载)
  • 相当容易设置和维护
  • 处理数据存储,以便我关心是否需要删除/添加新服务器(即,通过编辑简单的配置等将新服务器添加到文件系统的服务器池中)

  • 我已经阅读过有关OpenStack,GlusterFS,MogileFS,XtreemFS等的信息,但是阅读的越多,我就越困惑!

    (*)是的,我意识到了矛盾。从成本 Angular 来看,将数据库托管在RDS上确实有意义。但是,与使用专用服务器相比,在Amazon上存储(最多)50TB用户文件的方式过于昂贵(前提是足够好)。

    PS。 我的应用程序尚未发布,因此我可以建议别人是否有适合我的情况的好主意。

    编辑我不是,而是尝试创建S3克隆,我只需要使用现有的托管基础​​架构来构建小型云解决方案,我的问题是找到合适的分布式文件系统来处理/自动化此问题。

    最佳答案

    每年几个月来管理这些服务器是否需要一个人以上?这将花费一些美元,然后您将自己承担托管数据的成本,然后您将要增加的巨大成本是您正在构建的业务/系统显然不是可扩展的?此外,任何可能的投资者都将被复杂的本地数据托管系统拒之门外。您将如何确保与亚马逊同等的完整性/安全性?您每年最多可节省30,000美元左右。

    您可以通过执行重复数据删除的存储系统(仅存储所有唯一的数据块)来节省金钱-另请参见rsync。不知道您的数据有多冗余。

    08-07 17:10