【发布时间】:2015-08-31 07:28:33
【问题描述】:
我在使用 pdfgrep 时遇到了一个我无法解释的奇怪问题。我有一个 400 kB OCR 扫描的 pdf 文件。在这个文件中,我放置了 4 个标记(Mark_01、Mark_02、Mark_03 和 Mark_04)。
当我在 Evince 或 Adobe Reader 中打开文件并搜索时,我会找到所有这 4 个标记的匹配项。
但是,当使用这个命令时:pdfgrep -n "Mark_01" file.pdf
....它什么也不返回。
如果我将命令编辑为pdfgrep -n "Mark_0" file.pdf
....它将找到所有 4 个匹配项。
无论我搜索哪个标记,它都有相同的行为。
有什么想法吗?
/保罗
【问题讨论】:
-
在某处上传您的 pdf 文件并在您的问题中添加一个链接。
-
恐怕不能这样做,因为它包含一些敏感信息。尽管将标记更改为 Markword-01、Markword-02、Markword-03 和 Markword-04,但我进行了重新扫描。它给出了相同的结果。找不到单个匹配项,但在搜索“Markword-0”时会找到所有 4 个匹配项。我似乎 pdfgrep 中的某些内容无法处理“-”或“_”后跟双整数。
-
我找到了这种行为的原因,但不是解决方案。似乎找到匹配作为最后一行(即“Markword_01”),然后 pdfgrep 看不到匹配。当我在标记之后添加一个随机字符(即“Markword_01A”)时,就会找到标记。我不知道为什么会这样。
-
这里是一个文件链接:filedropper.com/02_4
不会找到标记 "Markword-01",但会找到通过 。这是 pdfgrep 的正常行为吗?如果是,为什么? -
它看起来像 pdfgrep 中的一个错误。 pdftext 显示“Markword-01”。