【发布时间】:2017-01-03 20:19:21
【问题描述】:
我希望从大型(约 870,000,000 行)文本文件中提取某些行组。例如,在一个 50 行的文件中,我可能需要第 3-6、18-27 和 39-45 行。
通过浏览 Stack Overflow,我发现 bash 命令:
tail -n+NUMstart file |head -nNUMend
是获取从 NUMstart 到 NUMend 的单行或一组行的最快方法。但是,当读取多组行时,这似乎效率低下。通常,该技术不会那么重要,但是对于这么大的文件,它会产生巨大的影响。
有没有比对每组行使用上述命令更好的方法?我假设答案很可能是一个 bash 命令,但我真的对任何能做得最好的语言/工具持开放态度。
【问题讨论】: