【发布时间】:2020-02-27 05:17:45
【问题描述】:
假设我们分别有 n 张猫和狗的图像,我们训练了一个图像分类模型来对一张新图像进行分类,其概率分数表明它是猫还是狗。
现在,我们得到的图像在同一张图像中包含多只猫和狗,我们如何检测和定位对象(这里是猫和狗)?
如果可能的话,我们是否也可以描述模型考虑预测的焦点区域,以便绘制边界框?
【问题讨论】:
-
我会说使用您提到的培训方法会相当困难。该模型获取整个图像并将其放入一个 bin 中。您的模型不允许对单个图像进行多类分类。
-
我认为这是可以实现的一种方法是训练另一个模型从图像中提取动物,然后将其提供给上面训练过的模型。假设图像中有两只猫和三只狗,那么对于该图像,您将有 5 个子图像。然后可以将这些传递到经过训练的网络,您可以稍后进行组合估计
-
我正在尝试这种方法,我正在尝试让早期的数据集与在完整图像(包含单个动物)周围绘制边界框一样。让我告诉你动物只是我采取的一个例子,我确实有一些其他的应用程序。我正在保存它的 xml 并获取包含多个动物的新数据并对其进行注释。我将尝试使用对象检测技术混合和馈送方法。这里的任何建议都将受到欢迎..
-
有了边界框后,您可以使用
cv或任何其他工具框从图像中提取像素并形成子图像。将这些子图像传递到下一个网络,直到所有子图像都输入到第二个网络,将所有预测放入一个数组中。最后使用图像和边界框位置的一一对应对原始图像进行注释。祝你好运。还请提及我是否可以将其写为答案。
标签: keras deep-learning computer-vision artificial-intelligence object-detection