【发布时间】:2017-03-15 20:33:48
【问题描述】:
在给定时间,我的应用程序 (apache CMIS) 中有用户文件系统。 随着它越来越大,我怀疑是否迁移到 hadoop (HDFS),因为我们还需要对其进行一些统计。 问题: 当前文件系统提供文件的版本控制。 当我阅读 hadoop - HDFS- 和文件版本控制时,我发现大部分时间我必须自己编写这个(版本控制)层。 是否已经有一些东西可用于管理 HDFS 中文件的版本控制,还是我真的必须自己编写(不想重新发明热水,但也找不到合适的解决方案)。
回答
有关详细信息:请参阅下面的 cmets 答案
Hadoop (HDFS) 不支持文件的版本控制。当您将 hadoop 与(amazon)S3 结合使用时,您可以获得此功能: Hadoop 将使用 S3 作为文件系统(没有块,但恢复将由 S3 提供)。此解决方案附带 S3 提供的文件版本控制。 Hadoop 仍将使用 YARN 进行分布式处理。
【问题讨论】:
标签: hadoop version-control hdfs