【发布时间】:2017-08-11 03:13:32
【问题描述】:
我有一大堆 1930-40 年代的官方文件图片,包括彩色和黑白,质量相当低(通常小于 250 kB)。这些是医院和市政当局等官方机构使用的标准表格的照片,这些表格是用手工或打字机填写的个人信息。我在这篇文章的末尾放置了两个典型的例子。 (请注意,这些是空表格 - 我宁愿不要将带有个人信息的表格放在网上。)
我需要做的是对集合进行排序,以便将相同类型的所有文档组合在一起。我不知道有多少种不同的类型。或者,我可以首先尝试尝试查找一种特定文档类型的所有实例。我想前一种方法是一种聚类方法,而后者是一种相似方法。
关于聚类方法,我的想法是(1)预处理图像以增强有用信息,(2)从每张图像中提取特征向量,(3)将这些特征向量提供给聚类算法。我想为这三个任务使用 SciKit-Image 和 SciKit-Learn 库。我做了一些研究和阅读以熟悉主题和可能性,但我不知道从哪里开始并且有一些基本问题。
- 预处理。哪些方法被证明是有用的?有很多选择:二值化、灰度化、去歪斜、去噪、模糊、裁剪、缩放……
- 特征提取。我想如果图像中最有趣的特征(角、线、网格、图片、徽标)被捕获在特征向量中——换句话说,如果特征基于所谓的兴趣点,这将很有帮助。同样,是否有已证明在这方面有帮助的特定方法?将图像表示为特征向量的最佳方式是什么?如何提取有趣的特征?
- 聚类。我看到 SciKit-Learn 提供了几种聚类算法。哪些最适合我的任务?哪些最适合开始 - 比如 k-means?
关于相似性任务,我不清楚如何处理这个问题,或者这是否可能。 欢迎任何帮助...
我意识到这是一个相当广泛的问题。总的来说,我希望收到一些反馈,说明我的方法是否有意义,以及它是否可能产生有用的结果。此外,我非常感谢任何指向示例、现有管道或一般好建议的指针!
例子:
【问题讨论】:
标签: image-processing machine-learning scikit-learn cluster-analysis scikit-image