【问题标题】:Extracting Identity-H encoded text with iText使用 iText 提取 Identity-H 编码的文本
【发布时间】:2011-11-09 00:40:04
【问题描述】:

我正在尝试从 pdf 文件中提取文本。文本在 Acrobat 中是可选的。 Acrobat 列出 ArialUnicodeMS 字体类型:TrueType (CID) 和编码:Identity-H。

使用sn-p

PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);

我得到了一些东西,但是当输出到标准输出或文件时它是不可读的(输出看起来像空白字符)。如何提取 Identity-H 编码的文本?

【问题讨论】:

    标签: itext extract


    【解决方案1】:

    这是一个长镜头,但您是否尝试将您的 pdf 设置为 1.2 版,identity-H 编码是字体的双字节编码,这主要用于亚洲字体和所有 Indesign 生成的 pdf。

    如果您的 pdf 中没有渐变、透明度等功能,您可以尝试一下(在您这样做之前备份您的 pdf,就像我之前说的那样,这是一个远景,只是大声思考)

    【讨论】:

    • 感谢您的回答。我不能更改我的 pdf 文件以便阅读。我切换到 pdfbox,显然没有问题。
    猜你喜欢
    • 2011-06-14
    • 1970-01-01
    • 1970-01-01
    • 2021-11-08
    • 1970-01-01
    • 2011-05-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多