【发布时间】:2018-12-10 11:55:42
【问题描述】:
我正在做一个从 pdf 文件中提取参数的 java 程序。我想提取 pdf 以获取像
这样的参数- 对象
- endobj
- 流
- 端流
- 外部参照
- 预告片
- 开始外部参照
- /页
- /加密
- /ObjStm
- /JS
- /JavaScript
- /AA
- /OpenAction
- /JBIG2解码
- /富媒体
- /启动
- /XFA
参数:
所以我希望得到如下图所示的输出:
【问题讨论】:
-
所以你想从PDF中提取文本,然后统计出现次数?
-
@notyou 是的。你知道怎么做吗?
-
@notyou 我可以在 Kali Linux 中使用 pdfid 来做到这一点,但我不知道如何在我的程序中使用 java 来做到这一点。
-
首先,你所说的 "参数" 是句法元素(例如
obj和endobj封装一个间接对象)和 PDF 名称(例如 Pages 表示内页树节点的类型)。此外,不清楚您要在哪里搜索这些文本,仅在原始文件中或在加密或压缩流中。 -
您提到了pdfid 工具。它旨在帮助识别恶意 PDF。它的作者说“它也会产生误报”...我会说它主要会为现在产生的常见文档产生误报。
标签: java parsing pdf extract pdfbox