【发布时间】:2013-04-27 04:47:40
【问题描述】:
我在一台 linux 机器 (Redhat) 上,我有一个 11GB 的文本文件。文本文件中的每一行都包含一条记录的数据,并且该行的前 n 个字符包含该记录的唯一标识符。该文件包含超过 2700 万条记录。
我需要验证文件中没有具有相同唯一标识符的多条记录。我还需要对一个 80GB 的文本文件执行此过程,因此任何需要将整个文件加载到内存中的解决方案都不实用。
【问题讨论】:
-
听起来是时候建立数据库了。这是一个庞大的文件。