【问题标题】:Best way to store 4.7 million binary files存储 470 万个二进制文件的最佳方式
【发布时间】:2015-08-26 04:47:30
【问题描述】:

我已经解析了整个英文维基百科,并将每个解析的文章保存在一个单独的协议缓冲区文件中。每个文件都有一个唯一的 id (wikiid)。我现在有 470 万篇已解析的文章,总大小为 180 GB。我知道 ext4 可以处理这么多文件,但这是一个好习惯吗?还是我应该使用数据库?我不需要经常更新它。

【问题讨论】:

  • 因为您 - 大概 - 已经拥有 180GB 的 470 万个文件;它出什么问题了? (FWIW,这使得平均文章/文件约为 40k。)

标签: database file filesystems wikipedia ext4


【解决方案1】:

将其保存为文件 - db 的扩展和维护成本相对较高。 尽管您可能要小心命名/存储它们的方式——而不是一个包含所有 4.7M 文件的目录——但其目录结构可以说是 4 级。预处理 4.7 M 文件以存储在目录结构中。说出文件 D1D2D3d4fewmorechars.txt 的 ID - 现在将此文件存储在 /D1/D2/D3/D4/D1D2D3D4fewmorechars.txt 中。

或者另一种选择是使用文件系统,如 XFS、ext3/4 - 使用目录索引技术,如散列目录。 检查此链接 - https://serverfault.com/questions/43133/filesystem-large-number-of-files-in-a-single-directory

【讨论】:

    猜你喜欢
    • 2011-01-02
    • 2021-07-26
    • 1970-01-01
    • 2010-11-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多