【发布时间】:2013-06-16 03:23:07
【问题描述】:
我有一个由第三方生成的 PDF。我试图从中取出文本,但pdf2text 和复制和粘贴都不会导致可读文本。在稍微挖掘输出(两个中的一个)之后,我发现屏幕上的每个字符都由三个字节组成。例如,“A”是字节 ef、81 和 81。查看声称以 Identity-H 编码的 PDF 上的元数据,因此我假设我看到的是一组以 Identity-H 编码的字符。我有一个基于我已经拥有的文档的部分映射,但我想做一个更完整的映射。为此,我需要一个用于 Identity-H 的 ASCII 表。
【问题讨论】:
-
不是即时解决方案,但请查看 CID (Identity-H) 文档 partners.adobe.com/public/developer/en/font/… 和 adobe.com/content/dam/Adobe/en/devnet/font/pdfs/…
-
如果您的 PDF 的字体使用 identity-h,则需要在 PDF 中使用 /ToUnicode 映射进行文本提取。参照。第 9.10.2 节将字符代码映射到 ISO 32000-1:2008 的 Unicode 值。
-
嗨,看看我关于这个stackoverflow.com/questions/22431215/…的问题
标签: pdf text unicode encoding character-encoding