Can Deep Learning Recognize Subtle Human Activitie

Can Deep Learning Recognize Subtle Human Activities?

Dataset & code: https://github.com/kreimanlab/DeepLearning-vs-HighLevelVision
提出一种具有细微差别的人类活动识别任务。

问题：最先进的model在识别一些具有细微差别的human activities时的精度远低于人类的水平
可能原因：任务与目标之间可能建立了某种虚假的关联（例如：图片的背景颜色，跳伞通常和蓝色的（天空）相关；棒球运动通常与绿色像素（场地）相关），这种偏差不利于人类设计更加先进的网络，网络性能的评价也不够客观。

算法依赖背景颜色对activities进行分类。

Can Deep Learning Recognize Subtle Human Activitie

解决方法：提出三种动作的二分类任务，数据集的环境可控，尽可能减少偏差
Drinking：2164
Reading：2524
Sitting：2116

数据集构建：

所有图片被转为灰度
网络数据集（15%）：存在很强的偏差
自己拍摄（85%）：尽量避免偏差，同一环境下的相反行为动作（同一场景下的喝水与不喝水。）例如：

相反的动作之间仅存在十分微小的差异。

数据集中的偏差

每次从简单到困难对图片进行排序，依次移除部分图片。在第一组图片中，在移除40%容易识别的图片后，识别准确率依旧远高于随机水平。相比之下，可控的数据集则性能接近随机。说明来自网络的图片中的偏差明显。

数据集：原始图像 --> 去除偏差

Drinking：4121 --> 2164
Reading：3071 --> 2524
Sitting：3684 --> 2116

人类受试者识别能力

识别性能均在70%以上

使用已有模型的性能对比

| Drinking | Reading | Setting | | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | |

对角线上是预测正确的

一种策略

Detectron. ´ https://github.com/facebookresearch/detectron, 2018