奇怪的PDF文本提取案例答案

【问题标题】：Strange PDF text extraction case奇怪的PDF文本提取案例
【发布时间】：2011-08-11 06:57:05
【问题描述】：

我尝试过的所有开源文本提取工具，标题如下：

uNISON LAuNCHeS MAGHReb VIRTuAL SCIeNCe LIbRARy: A NeW
PORTAL PROMOTING INTeRNATIONAL SCIeNTIFIC AND
TeCHNICAL COLLAbORATION

不过，Adobe Acrobat Reader 给出的东西更合理——

Unison Launch es Maghr eb Virt ual Sci enc e
Librar y: A New Portal Promoting Int ernational
Scientific and Technical Colla boration

空格已关闭，但字符大小写更有意义。知道为什么存在差异吗？

【问题讨论】：

标签： pdf

【解决方案1】：

显然，这是“标记内容”流的示例，其中 BDC/EMC 运算符用于使用“ActualText”属性对流进行注释，这就是正确文本所在的位置。

根据 PDF 32000-1:2008 中的 7.9.2.2，文本本身采用 UTF-16BE 或 PDFDocEncoding

【讨论】：

【解决方案2】：

字体在文档中描述。文本提取工具错误地解释描述或基于字符代码进行假设。 Adobe 产品以其他方式做事并正确解释。

【讨论】：