【发布时间】:2018-11-05 18:08:52
【问题描述】:
我有很多PDF 文件,它们基本上是扫描文档,所以每一页都是一个扫描图像。我想执行OCR 并从这些文件中提取文本。我试过pytesseract,但它没有直接在pdf文件上执行OCR,所以我想从PDF文件中提取images,将它们保存在目录中,然后执行OCR直接在这些图像上使用pytesseract。 python有什么方法可以从pdf文件中提取扫描图像?或者有什么方法可以直接对pdf文件执行OCR?
【问题讨论】: