【问题标题】:How to detect hidden text in pdf如何检测pdf中的隐藏文本
【发布时间】:2012-01-24 06:38:02
【问题描述】:

我们正在使用 iText/PDFBox 从 PDF 中提取文本,但在 PDF 中不可见的其他文本也会被提取。是否有任何方法和/或工具可以摆脱这些隐藏文本?

【问题讨论】:

  • 显示一些隐藏文本的示例?代码在哪里?
  • 它是对pdf内容流的直接解析,其中隐藏的文本与普通文本一起被提取。图像或任何矢量图覆盖的文本也是这样出来的,因为似乎没有办法检测是否有任何物体被另一个物体覆盖。
  • 我也有同样的问题。我有时需要“审查”文本,所以我用矩形覆盖区域。然后我打印为 pdf,所以矩形不再仅仅是注释。但仍然可以选择和复制矩形下的东西。现在我求助于事后转换为图像,但这并不优雅。

标签: pdf text extraction


【解决方案1】:

添加隐藏文本的方法有很多,包括

  1. 隐藏在隐藏/不可见/锁定的内容组图层上
  2. OCG 上的白色文本颜色
  3. 100% 透明文本
  4. ???

每个 PDF 可能使用不同的方法并且能够将它们分开,您可能需要知道隐藏文本是如何实现的。

iText 是否有返回文本颜色的选项?如果是这样,那么您可以尝试忽略白色文本对象。

【讨论】:

  • 感谢您的回复!但是在这里我更多的是寻找一些图像或矢量图覆盖文本的情况。是否有一些工具可以删除这些内容?
  • 您需要从 PDF 中提取徽标和文本,然后执行检查以查看图像是否位于徽标下方。然后,您打开一整罐带有透明图像的蠕虫,其中可能在 PDF 上可见文本,但从技术上讲,测试是在图像下进行的。另一种选择是检查文本对象的文本颜色或透明度,以查看它们是否绘制。绘制/隐藏文本有许多不同的方法,您需要一个了解所有不同技巧的工具。如果您的 PDF 全部来自一个来源,那么您将有更好的机会。 OCR 是另一种选择
猜你喜欢
  • 2013-05-11
  • 2018-10-07
  • 1970-01-01
  • 1970-01-01
  • 2021-06-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多