【问题标题】:PDFBox PDFImageWrite.writeImage is not handling all characters properlyPDFBox PDFImageWrite.writeImage 未正确处理所有字符
【发布时间】:2015-09-01 09:55:14
【问题描述】:

我正在使用 PDFBox 1.8.10 加载 PDF 并在每个页面上叠加图像。

PDDocument doc = PDDocument.load(url);
PDFImageWriter imageWriter = new PDFImageWriter();
imageWriter.writeImage(doc, imageFormat, password, 1,
        doc.getNumberOfPages(), filePrefix, imageType, resolution);

我已尝试将doc 保存为 PDF,这看起来不错。保存图像时,它们可能包含不正确的文本。对于东欧文件尤其如此 - 例如匈牙利、波兰、捷克等

PDF显示

H-4432 NYÍREGYHÁZA-NYÍRSZŐLŐS

图片显示

有解决办法吗?我需要定义代码页吗?会不会是可用字体有问题?

【问题讨论】:

  • PDFBox 将 PDF 渲染为图像的功能在 1.x 版本中非常有限。它在 2.0.0-SNAPSHOT 开发版本中有很大改进,参见。 this answerthis answerthis one。不幸的是,PDFBox 2.0.0-SNAPSHOT API 是一个移动的目标,每隔一个月就会进行一次大规模重构,因此这些答案中的代码可能不再开箱即用。

标签: java pdf pdfbox


【解决方案1】:

我的解决方案是切换到 2.0 SNAPSHOT(8 月 15 日)。我测试过的所有文件看起来都很好。 API 已更改,但就我而言,更改需要 5 分钟。

感谢@mkl 提供信息。

【讨论】:

    猜你喜欢
    • 2021-03-23
    • 2011-12-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-09-06
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多