【发布时间】:2019-05-23 10:14:03
【问题描述】:
我正在从事一个项目,在该项目中,我处理并存储了带有标签类别的单页医疗报告的文档。用户将输入一个文档,我必须对其所属的类别进行分类。
我已将所有文档转换为灰度图像格式并存储以供比较。
我有一个包含以下数据的图像数据集,
-
image_path:此列有图片路径 -
histogram_value:此列有图片的直方图,使用cv2.calcHist函数计算得出 -
np_avg:该列有图像所有像素的平均值。使用np.average计算-
category:此列是图片的一个类别。
-
我打算用这两种方法,
- 计算输入图像的
histogram_value,找到最接近的10个匹配图像- 计算输入图像的
np_avg,找到最接近的10个匹配图像 - 取两个结果集的交集
- 如果找到多个图像,请进行模板匹配以找到最合适的图像。
- 计算输入图像的
我对图像处理领域知之甚少。上述机制对我的目的是否可靠?
我检查了 SO,发现很少有相同的问题,但它们的问题和期望的结果非常不同。 This question 看起来与我的情况相似,但它非常通用,我不确定它是否适用于我的场景。
【问题讨论】:
-
由于这些是包含文本的文档,如果您可以进行合理的 OCR,那么由此获得的单词可能会作为比像素值更好的特征。
-
比较是否仅基于文本?报告是否也包含任何图像?如果是,它们是否始终出现在每份报告中?
-
@dhanushka,合理的 OCR 很难由我自己创建,你能建议我一些我可以使用的开源解决方案吗?我尝试了 tesseract,但在我的情况下效果不佳。
-
@amanb,好主意。但我刚刚检查并发现图像并非在所有报告中,而且一些图像对于不同类别的报告是常见的。例如,来自同一实验室的报告在所有不同类别的报告中都有相同的徽标。
-
是否可以共享虚拟报告?可以隐藏重要部分。另一个用于比较的报告也可能有用。如果不是全部,只是其中的一部分。
标签: python numpy opencv document