如何在手中检测物体？从这个视频答案

【问题标题】：How to detects objects while in hand ? from this video如何在手中检测物体？从这个视频
【发布时间】：2020-02-12 11:48:25
【问题描述】：

我发现了一个有趣的视频，请观看https://www.youtube.com/watch?v=yeS8TJwBAFs。

此处仅在手中检测到的对象/品牌。有什么想法是怎么做的？

收集手中的所有数据集/品牌项目并输入 CNN 不是一个好主意，或者可以应用任何 OpenCV 函数？

【问题讨论】：

【解决方案1】：

首先，我想指出，这个项目似乎有大量的图像用于训练这种算法。根据我过去的经验，一种可能的解决方案是使用关键点检测。让我澄清一下。

使用关键点检测，特别是手腕关键点对于实现这种算法至关重要。由于模型首先检测人的手腕关键点，因此找到手腕关键点并在手腕关键点周围定义一个区域例如 50x50 像素用于分类。（请参阅：关键点检测算法。）

然而，挑战是定义一个像 50x50 像素这样的小区域将没有足够的特征来区分 例如 nutella 和花生酱。 因此，我认为模型设计得非常好，数据集也是size 必须非常大才能进行这种分类。

【讨论】：

手腕的关键点检测没问题，然后通过简单地训练收集的图像来检测项目/品牌？如果是，如何将两个检测组合为一个单一的？
您可以使用相同的数据集进行关键点检测和对象检测。首先你训练你的关键点检测模型。之后，手腕周围的某些区域可以归类为 nutella，或空的或东西。或者在单个网络中，ground truth 值包含关键点坐标和分类对象，在某种意义上，手腕关键点区域是模型分类部分的输入，因为模型可以输出 heatmat、pred_keypoint 和 pred_classification 作为输出。

【解决方案2】：

似乎我们可以使用简单的对象检测模型来做到这一点，例如 YOLOV3、SSD 与手（手腕）作为附加类。

所以，如果我们要检测 N 类品牌，那么对象检测模型的总类将是 N+1。

从模型中得到检测后，我们可以过滤边界框与人手边界框重叠的对象（例如（objects，hand）的IOU（intersection over union）

【讨论】：