【发布时间】:2015-08-26 04:47:30
【问题描述】:
我已经解析了整个英文维基百科,并将每个解析的文章保存在一个单独的协议缓冲区文件中。每个文件都有一个唯一的 id (wikiid)。我现在有 470 万篇已解析的文章,总大小为 180 GB。我知道 ext4 可以处理这么多文件,但这是一个好习惯吗?还是我应该使用数据库?我不需要经常更新它。
【问题讨论】:
-
因为您 - 大概 - 已经拥有 180GB 的 470 万个文件;它出什么问题了? (FWIW,这使得平均文章/文件约为 40k。)
标签: database file filesystems wikipedia ext4