使用 iText 提取 Identity-H 编码的文本

【问题标题】：Extracting Identity-H encoded text with iText使用 iText 提取 Identity-H 编码的文本
【发布时间】：2011-11-09 00:40:04
【问题描述】：

我正在尝试从 pdf 文件中提取文本。文本在 Acrobat 中是可选的。 Acrobat 列出 ArialUnicodeMS 字体类型：TrueType (CID) 和编码：Identity-H。

使用sn-p

PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);

我得到了一些东西，但是当输出到标准输出或文件时它是不可读的（输出看起来像空白字符）。如何提取 Identity-H 编码的文本？

【问题讨论】：

【解决方案1】：

这是一个长镜头，但您是否尝试将您的 pdf 设置为 1.2 版，identity-H 编码是字体的双字节编码，这主要用于亚洲字体和所有 Indesign 生成的 pdf。

如果您的 pdf 中没有渐变、透明度等功能，您可以尝试一下（在您这样做之前备份您的 pdf，就像我之前说的那样，这是一个远景，只是大声思考）

【讨论】：