【发布时间】:2011-11-09 00:40:04
【问题描述】:
我正在尝试从 pdf 文件中提取文本。文本在 Acrobat 中是可选的。 Acrobat 列出 ArialUnicodeMS 字体类型:TrueType (CID) 和编码:Identity-H。
使用sn-p
PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);
我得到了一些东西,但是当输出到标准输出或文件时它是不可读的(输出看起来像空白字符)。如何提取 Identity-H 编码的文本?
【问题讨论】: