识别图像中的复杂对象[关闭]答案

【问题标题】：Recognising complex objects in an image [closed]识别图像中的复杂对象[关闭]
【发布时间】：2016-07-12 19:11:48
【问题描述】：

我将更具体地说明情况：

我截取了 DotA 游戏的屏幕截图。我想得到的信息是什么对象，例如。英雄（也是它的名字，hp，...），小兵（也是哪一边），塔等在图像中可见，它们在哪里。一个问题在于，在 DotA 2 中，这些对象中的许多都可以从多个角度进行查看，因此让我们简化问题并假设每个对象只有一个方向。怎样才能足够快地解决这个问题，使其能够以大约 30fps 的速度实时识别所有对象？欢迎任何帮助或建议。

【问题讨论】：

标签： image-processing neural-network conv-neural-network

【解决方案1】：

我认为你有很好的标志：用于图像分割的 CNN。所以我的观点是，对于这么多来自不同视角和比例的不同对象（因为我猜你可以放大/缩小你的英雄/对象），最简单的方法（但计算量最大）是构建每种类型的对象一个 CNN。

但图片有助于更好地理解问题。

【讨论】：

据我所知，CNN 只能确定图像中是否存在对象，而不能确定相关对象在图像中的位置。这也是我想从屏幕截图中提取的信息。 CNN 真的能够回答这个问题吗？
CNN 会告诉你哪个像素属于对象，所以它也会给你在图像中的位置。
明确一点，您建议使用哪种解决方案？ 1：首先从图像中提取有趣的对象，然后将每个对象输入 CNN 以找出它们是哪种对象。在这种情况下，如何提取这些对象？由于它们不是单色对象，我真的不知道可以完成这项工作的算法。 2：将整个截图输入CNN，CNN会输出物体在哪里，是什么类型的物体。在这种情况下，我从来不知道有一个 CNN 可以执行这样的任务。一些更多信息或链接将非常有帮助。谢谢。
没有。为 CNN 提供补丁，例如 23x23 像素，以及每个补丁的标签。像这样，您可以针对每种类型的对象训练您的 CNN。
我现在明白了。非常感谢！