【问题标题】:Strange PDF text extraction case奇怪的PDF文本提取案例
【发布时间】:2011-08-11 06:57:05
【问题描述】:

我正在查看以下网址: http://www.unisonagency.com/assets/news/unison_pr_mvsl.pdf

我尝试过的所有开源文本提取工具,标题如下:

uNISON LAuNCHeS MAGHReb VIRTuAL SCIeNCe LIbRARy: A NeW
PORTAL PROMOTING INTeRNATIONAL SCIeNTIFIC AND
TeCHNICAL COLLAbORATION

不过,Adobe Acrobat Reader 给出的东西更合理——

Unison Launch es Maghr eb Virt ual Sci enc e
Librar y: A New Portal Promoting Int ernational
Scientific and Technical Colla boration

空格已关闭,但字符大小写更有意义。知道为什么存在差异吗?

【问题讨论】:

    标签: pdf


    【解决方案1】:

    显然,这是“标记内容”流的示例,其中 BDC/EMC 运算符用于使用“ActualText”属性对流进行注释,这就是正确文本所在的位置。

    根据 PDF 32000-1:2008 中的 7.9.2.2,文本本身采用 UTF-16BE 或 PDFDocEncoding

    【讨论】:

      【解决方案2】:

      字体在文档中描述。文本提取工具错误地解释描述或基于字符代码进行假设。 Adobe 产品以其他方式做事并正确解释。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2018-08-11
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多