【发布时间】:2026-02-14 23:45:01
【问题描述】:
我目前正在验证标记的 PDF 文件中内容的正确顺序。
有没有什么方法可以通过编程方式提取Tagged PDF Files的阅读序号?
我尝试将标记的 PDF 转换为 XML,但我无法确定哪些标记属于某个文本。
我尝试了以下库:
- 同步融合
- IText7
但我找不到任何获取其阅读顺序号的方法。
真的有可能吗?提前致谢!
【问题讨论】:
-
阅读顺序不是结构树给的吗?然后你所要做的就是沿着结构树提取文本。
标签: java c# pdf accessibility acrobat