【发布时间】:2017-06-26 13:40:00
【问题描述】:
我正在尝试识别扫描的 PDF 文件中的图像(而不是文本),最好使用 python。有没有办法做到这一点?举个简单的例子,假设您浏览了一本书的一章。页面有三种可能的选项:
- 仅包含文字
- 仅包含一张(或多张)图片
- 包含文字和图片
我想输出属于类别 2 或 3 的页面列表。
【问题讨论】:
-
这在很大程度上取决于您的图像和文本。您需要查看您的数据集。可能是图像有很多颜色。文本可以有颜色,但通常不多。它也可能是你可以在比字符大的东西周围画出的最大的白色边框。在这种情况下,“白色”需要“足够白,以允许传感器噪声”......但仍然如此。这将识别方形图片。也许没有那么多图表。
-
提供一些例子如何让我们都在同一个页面上?
-
对于案例 2,pdf 是否有任何文本?像页码或标题之类的?只有当这两种情况之间有明确的界限时,您才能应用机器学习。为了给您一个抽象的想法,需要将pdf转换为图像。然后将图像转换为灰度,然后转换为矢量形式,其中每个像素都表示为一个数组。如果根本没有文本,则与带有文本和图像的向量相比,向量将具有不同的模式。这种模式被神经网络拾取并因此学习。
-
@MarkSetchell archive.org/details/adventureshuckle00twaiiala 有一个可下载的 pdf 文件
-
对不起那个马克 - 你的回答似乎很好!
标签: python image-processing machine-learning computer-vision ocr