【问题标题】:Strings indexing tool for binary files二进制文件的字符串索引工具
【发布时间】:2016-10-27 19:19:03
【问题描述】:

我经常需要处理不同格式的非常大的二进制文件(从 50 到 500Gb),其中包含基本上混合的数据,包括字符串。

我需要为文件中的字符串编制索引,创建数据库或索引,以便进行快速搜索(基本搜索或使用正则表达式进行复杂搜索)。搜索的输出当然应该是找到的字符串在二进制文件中的偏移量。

有没有人知道可以帮助我完成这项任务的工具、框架或库?

【问题讨论】:

    标签: indexing binaryfiles binary-data computer-forensics


    【解决方案1】:

    您可以在其上运行“strings -t d”(Linux / OS X)以提取具有相应偏移量的字符串,然后将其放入 Solr 或 Elastic。如果您想要的不仅仅是 ASCII,它会变得更加复杂。

    Autopsy 有自己的字符串提取代码(用于 UTF-8 和 UTF-16)并将其放入 Solr(如果支持文件格式,则使用 Tika),但它不记录二进制的偏移量文件,因此它可能无法满足您的需求。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2011-02-28
      • 2016-08-30
      • 1970-01-01
      • 2021-12-04
      • 1970-01-01
      • 2011-09-23
      相关资源
      最近更新 更多