【问题标题】:Determine if PDF file has searchable text in PHP确定 PDF 文件是否在 PHP 中具有可搜索的文本
【发布时间】:2013-05-10 00:23:43
【问题描述】:

我们在服务器上有数百个 PDF 文件。其中一些包含可搜索的文本,而另一些则不包含。

我被要求找出哪些是可搜索的,哪些是不可搜索的。

是否有人知道读取一堆 PDF 并确定该 PDF 文档是否包含可搜索/可选择的文本,或者 pdf 是否仅包含需要 OCRd 的不可选择/可搜索的文本的方法?

我什至不需要真正阅读文本;我只需要能够通过标签或关键字进行检测,这表明原始数据中有字体或类似的东西。

可搜索的 PDF 中是否存在易于检测的标签?

谢谢

【问题讨论】:

  • 有很多库可以创建 PDF,但用 PHP 阅读它们的库并不多。我会说使用第三方程序(也许是 pdftotext?)来提取文本是你最好的选择。
  • 这是一个很好的问题 :-) 我会尝试寻找一些文本,例如搜索一个空格左右,但这个问题绝对值得更长的思考
  • 我不认为 PHP 是完成这项任务的正确工具。
  • PHP 可以读取原始 pdf 文件,所以肯定有办法检测文本

标签: php pdf ocr


【解决方案1】:

你可以modify this code(pdf2text) 来满足你的目的,我相信。或者this answer 也可能让您找到正确的位置。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-05-03
    • 2010-10-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-09-25
    相关资源
    最近更新 更多