【问题标题】:Intriguing pdfgrep situation有趣的 pdfgrep 情况
【发布时间】:2015-08-31 07:28:33
【问题描述】:

我在使用 pdfgrep 时遇到了一个我无法解释的奇怪问题。我有一个 400 kB OCR 扫描的 pdf 文件。在这个文件中,我放置了 4 个标记(Mark_01、Mark_02、Mark_03 和 Mark_04)。

当我在 Evince 或 Adob​​e Reader 中打开文件并搜索时,我会找到所有这 4 个标记的匹配项。

但是,当使用这个命令时:pdfgrep -n "Mark_01" file.pdf

....它什么也不返回。

如果我将命令编辑为pdfgrep -n "Mark_0" file.pdf

....它将找到所有 4 个匹配项。

无论我搜索哪个标记,它都有相同的行为。

有什么想法吗?

/保罗

【问题讨论】:

  • 在某处上传您的 pdf 文件并在您的问题中添加一个链接。
  • 恐怕不能这样做,因为它包含一些敏感信息。尽管将标记更改为 Markword-01、Markword-02、Markword-03 和 Markword-04,但我进行了重新扫描。它给出了相同的结果。找不到单个匹配项,但在搜索“Markword-0”时会找到所有 4 个匹配项。我似乎 pdfgrep 中的某些内容无法处理“-”或“_”后跟双整数。
  • 我找到了这种行为的原因,但不是解决方案。似乎找到匹配作为最后一行(即“Markword_01”),然后 pdfgrep 看不到匹配。当我在标记之后添加一个随机字符(即“Markword_01A”)时,就会找到标记。我不知道为什么会这样。
  • 这里是一个文件链接:filedropper.com/02_4 不会找到标记 "Markword-01",但会找到通过 。这是 pdfgrep 的正常行为吗?如果是,为什么?
  • 它看起来像 pdfgrep 中的一个错误。 pdftext 显示“Markword-01”。

标签: pdf grep


【解决方案1】:

这种行为确实是bug in poppler,pdfgrep 使用的渲染库。

fix 已于 8 月 27 日提交,并将在即将发布的 0.36.0 版本中。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-06-08
    • 2010-10-28
    • 1970-01-01
    • 2014-02-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多