确定 PDF 文件是否在 PHP 中具有可搜索的文本答案

【问题标题】：Determine if PDF file has searchable text in PHP确定 PDF 文件是否在 PHP 中具有可搜索的文本
【发布时间】：2013-05-10 00:23:43
【问题描述】：

我们在服务器上有数百个 PDF 文件。其中一些包含可搜索的文本，而另一些则不包含。

我被要求找出哪些是可搜索的，哪些是不可搜索的。

是否有人知道读取一堆 PDF 并确定该 PDF 文档是否包含可搜索/可选择的文本，或者 pdf 是否仅包含需要 OCRd 的不可选择/可搜索的文本的方法？

我什至不需要真正阅读文本；我只需要能够通过标签或关键字进行检测，这表明原始数据中有字体或类似的东西。

可搜索的 PDF 中是否存在易于检测的标签？

谢谢

【问题讨论】：

标签： php pdf ocr

【解决方案1】：

你可以modify this code(pdf2text) 来满足你的目的，我相信。或者this answer 也可能让您找到正确的位置。

【讨论】：