有趣的 pdfgrep 情况答案

【问题标题】：Intriguing pdfgrep situation有趣的 pdfgrep 情况
【发布时间】：2015-08-31 07:28:33
【问题描述】：

我在使用 pdfgrep 时遇到了一个我无法解释的奇怪问题。我有一个 400 kB OCR 扫描的 pdf 文件。在这个文件中，我放置了 4 个标记（Mark_01、Mark_02、Mark_03 和 Mark_04）。

当我在 Evince 或 Adobe Reader 中打开文件并搜索时，我会找到所有这 4 个标记的匹配项。

但是，当使用这个命令时：pdfgrep -n "Mark_01" file.pdf

....它什么也不返回。

如果我将命令编辑为pdfgrep -n "Mark_0" file.pdf

....它将找到所有 4 个匹配项。

无论我搜索哪个标记，它都有相同的行为。

有什么想法吗？

/保罗

【问题讨论】：

在某处上传您的 pdf 文件并在您的问题中添加一个链接。
恐怕不能这样做，因为它包含一些敏感信息。尽管将标记更改为 Markword-01、Markword-02、Markword-03 和 Markword-04，但我进行了重新扫描。它给出了相同的结果。找不到单个匹配项，但在搜索“Markword-0”时会找到所有 4 个匹配项。我似乎 pdfgrep 中的某些内容无法处理“-”或“_”后跟双整数。
我找到了这种行为的原因，但不是解决方案。似乎找到匹配作为最后一行（即“Markword_01”），然后 pdfgrep 看不到匹配。当我在标记之后添加一个随机字符（即“Markword_01A”）时，就会找到标记。我不知道为什么会这样。
这里是一个文件链接：filedropper.com/02_4 不会找到标记 "Markword-01"，但会找到通过。这是 pdfgrep 的正常行为吗？如果是，为什么？
它看起来像 pdfgrep 中的一个错误。 pdftext 显示“Markword-01”。

标签： pdf grep

【解决方案1】：

这种行为确实是bug in poppler，pdfgrep 使用的渲染库。

fix 已于 8 月 27 日提交，并将在即将发布的 0.36.0 版本中。

【讨论】：