【发布时间】:2012-09-13 14:26:51
【问题描述】:
有没有办法使用PDFBox为特定图像提取“替代文本”?
我有一个 PDF 文件,如 http://www.w3.org/WAI/GL/2011/WD-WCAG20-TECHS-20110621/pdf.html#PDF1 所述,在图像中添加了替代文本。使用 PDFBox,我可以通过 PDFDocument.getDocumentCatalog().getAllPages() [iterator] .getResources.getImages() 通过对象模型找到图像本身(PDXObjectImage)的方法,但我看不到任何从图像中获取的方法将其自身添加到替代文本中。
可以在http://dl.dropbox.com/u/12253279/image_test_pass.pdf 找到一个小的示例 PDF(带有指定了一些替代文本的单个图像)(它应该说“这是图像的替代文本。”)。
【问题讨论】:
-
马特,你想做什么?将 PDF 转换为另一种格式? PDFBox 链接对我不起作用
-
作为可访问性检查工具的一部分,我的目标是自动检查每个图像是否有一些与之关联的“替代文本”。
-
嗨@MattSheppard!你找到解决办法了吗?从你那里得到一些信息对我很有帮助。谢谢,加博尔
-
我最终得到了基于 stackoverflow.com/a/12557302/797 的东西,它递归地向下走,并检查页面资源上 isImageXObject 返回 true 的任何 page.getResources().getXObjectNames()。
标签: java pdf accessibility pdfbox