Can Deep Learning Recognize Subtle Human Activities?
Dataset & code: https://github.com/kreimanlab/DeepLearning-vs-HighLevelVision
提出一种具有细微差别的人类活动识别任务。
- 问题:最先进的model在识别一些具有细微差别的human activities时的精度远低于人类的水平
- 可能原因:任务与目标之间可能建立了某种虚假的关联(例如:图片的背景颜色,跳伞通常和蓝色的(天空)相关;棒球运动通常与绿色像素(场地)相关),这种偏差不利于人类设计更加先进的网络,网络性能的评价也不够客观。
算法依赖背景颜色对activities进行分类。
- 解决方法:提出三种动作的二分类任务,数据集的环境可控,尽可能减少偏差
- Drinking:2164
- Reading:2524
- Sitting:2116
数据集构建:
- 所有图片被转为灰度
- 网络数据集(15%):存在很强的偏差
- 自己拍摄(85%):尽量避免偏差,同一环境下的相反行为动作(同一场景下的喝水与不喝水。)例如:
相反的动作之间仅存在十分微小的差异。
数据集中的偏差
每次从简单到困难对图片进行排序,依次移除部分图片。在第一组图片中,在移除40%容易识别的图片后,识别准确率依旧远高于随机水平。相比之下,可控的数据集则性能接近随机。说明来自网络的图片中的偏差明显。
数据集:原始图像 --> 去除偏差
- Drinking:4121 --> 2164
- Reading:3071 --> 2524
- Sitting:3684 --> 2116
人类受试者识别能力
识别性能均在70%以上
使用已有模型的性能对比
| Drinking | Reading | Setting | | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | |
|
|
|
对角线上是预测正确的
一种策略
Detectron. ´ https://github.com/facebookresearch/detectron, 2018