【发布时间】:2013-12-13 20:37:35
【问题描述】:
我有一个相当大的文本文件,平均 30GB。我想从此文件中删除重复的行。什么是一个很好的有效算法来做到这一点。对于小文件,我通常使用字典,例如 Python 字典来存储唯一键。但这次文件相当大。任何语言建议都可以。 (我正在考虑使用 C?还是它不是依赖于语言,而是更重要的算法?)。谢谢
【问题讨论】:
-
使用
uniq命令 -
sort $file | uniq如果您不关心订单;uniq $file如果保证重复是连续的。 -
@VectorGorgoth
sort -u $file怎么样? -
@Macattack 我总是因为某种原因忘记了那个标志。
-
是的,对我来说最好的方法是 sort -u $file
标签: python c perl shell duplicates