【发布时间】:2012-08-05 21:32:08
【问题描述】:
我有一个包含 PDF 的 URL 列表的 CSV:
- 其中一些 PDF 是可搜索的。
- 其中一些 PDF 文件不可搜索。
我想确定可以从我的 PDF 列表中搜索哪些 PDF。是否有捷径可寻?
【问题讨论】:
-
可搜索是什么意思?它们包含文本而不是图像?
-
我没有尝试过这个,但在 Bing 上的第一次点击表明在 PDF 文件内容中搜索“FontName”将识别出可搜索的内容。
-
PDF 有 OCRed 文本。我会调查 FontName。
-
是的,字符串 foo.pdf | grep 字体名称
-
不幸的是,对“FontName”的 grepping 是不够的。我已经看到许多可搜索的 PDF 文件显然是从(或由)PowerPoint 创建的,它们具有“/Font”和“/BaseFont”但没有“FontName”。我目前正在寻找 Fontname 和 BaseFont。