【发布时间】:2021-07-05 15:38:06
【问题描述】:
我正在处理多个 PDF 文件的 OCR 任务。其中一些是扫描的(不可搜索的),而另一些则是原生的(可搜索的)PDF。
为了收集文本数据,我执行了两个单独的代码。
扫描的pdf文件
image1 = image_read_pdf (file.list1[1], density=150)
image1 = image_ocr(image1,
language = "spa")
文本pdf的那个
text1 = pdf_text(file.list1[2])
由于 OCR 功能在每个存档上都需要一段时间,我希望能够在将它们转换为文本之前区分这两种 PDF。有什么方法可以识别它们吗?
我已经尝试过pdf_fonts(file.list1[1]),但我无法获得确定的结果来区分扫描的 pdf 和原生文本 pdf。
【问题讨论】: