【发布时间】:2013-05-10 00:23:43
【问题描述】:
我们在服务器上有数百个 PDF 文件。其中一些包含可搜索的文本,而另一些则不包含。
我被要求找出哪些是可搜索的,哪些是不可搜索的。
是否有人知道读取一堆 PDF 并确定该 PDF 文档是否包含可搜索/可选择的文本,或者 pdf 是否仅包含需要 OCRd 的不可选择/可搜索的文本的方法?
我什至不需要真正阅读文本;我只需要能够通过标签或关键字进行检测,这表明原始数据中有字体或类似的东西。
可搜索的 PDF 中是否存在易于检测的标签?
谢谢
【问题讨论】:
-
有很多库可以创建 PDF,但用 PHP 阅读它们的库并不多。我会说使用第三方程序(也许是 pdftotext?)来提取文本是你最好的选择。
-
这是一个很好的问题 :-) 我会尝试寻找一些文本,例如搜索一个空格左右,但这个问题绝对值得更长的思考
-
我不认为 PHP 是完成这项任务的正确工具。
-
PHP 可以读取原始 pdf 文件,所以肯定有办法检测文本