【发布时间】:2012-01-24 06:38:02
【问题描述】:
我们正在使用 iText/PDFBox 从 PDF 中提取文本,但在 PDF 中不可见的其他文本也会被提取。是否有任何方法和/或工具可以摆脱这些隐藏文本?
【问题讨论】:
-
显示一些隐藏文本的示例?代码在哪里?
-
它是对pdf内容流的直接解析,其中隐藏的文本与普通文本一起被提取。图像或任何矢量图覆盖的文本也是这样出来的,因为似乎没有办法检测是否有任何物体被另一个物体覆盖。
-
我也有同样的问题。我有时需要“审查”文本,所以我用矩形覆盖区域。然后我打印为 pdf,所以矩形不再仅仅是注释。但仍然可以选择和复制矩形下的东西。现在我求助于事后转换为图像,但这并不优雅。
标签: pdf text extraction