【发布时间】:2009-10-30 21:57:02
【问题描述】:
我有一个大文本文件(超过 70mb),需要计算一个字符序列在文件中出现的次数。我可以找到很多脚本来执行此操作,但没有一个考虑到序列可以在不同的行开始和结束。为了提高效率(实际上我正在处理的文件不止一个),我无法预处理文件以删除换行符。
示例: 如果我正在搜索“thisIsTheSequence”,以下文件将有 3 个匹配项:
asdasdthisIsTheSequence
asdasdasthisIsT
heSequenceasdasdthisIsTheSequ
encesadasdasda
感谢您的帮助。
【问题讨论】:
-
您可以对文件进行预处理,只需在计数脚本之前的管道中进行:
strip-newlines | count-matches。