【发布时间】:2015-05-17 03:10:09
【问题描述】:
使用正则表达式在大型二进制文件(2 GB 或更多)中搜索(多个)字符串的最佳方法是什么。
二进制数据只是“原始”数据(如内存转储),字符串没有界限。
我可以通过逐行读取文件来在大型文本文件中执行此操作。 我想我需要分块读取文件,但是存在边界风险(匹配位于块边界上)
如何搜索二进制数据。
非常感谢一个简短的例子。
编辑: 我没有看到相似之处。这一点我也不清楚
【问题讨论】:
-
Python regex parse stream 的可能重复项
-
这不是严格的重复。 'duplicate' question 假设一个流(答案是'不支持')。这个问题问“我该如何处理大文件?”没有假设这种流方法并继续明确提及边界..不投票关闭。
-
使用什么正则表达式?它是如何/有界的?
-
更新了我的问题。
标签: python regex python-2.7 binary