【发布时间】:2012-12-07 22:37:33
【问题描述】:
我正在制作一个允许使用 apache Solr 在 pdf 中搜索的应用程序。我在 pdf 中找不到某些术语。
我注意到列中的单词被附加了。
例子
Column1 | Column2
stack | overflow
这里的 PdftextStripper 有时会给我 stackoverflow 作为提取的文本。这会导致 solr 中的错误标记化,从而阻止您找到该术语。 (是的,我知道我可以使用通配符,但这在短语查询中不起作用)
我一直在查看来源以了解导致问题的原因。但似乎 writePage 方法必须猜测空格。我无法真正改变它,因为它看起来很复杂。
还有其他解决方案可以从带有列的 pdf 中提取良好的文本吗?
- 可能是其他程序的某种转换。
- 可能是 pdfbox 的补丁。
- 是的,我见过类似的 问题,但他们主要处理提取的顺序(其中 我的情况没那么重要)。
【问题讨论】: