图灵机器人——VQA模型的介绍

VQA的起源

图灵测试：如果强AI，使你分辨不出是人还是计算机，完成了图灵测试。

Eugene Goostman算法：模仿了乌克兰13岁小男孩，无法判断对方是人还是机器人，完成了首个可以pass 图灵测试。

1、13岁

2、乌克兰人

3、英语可能也不好

是不是有更好的测试，所以就有了新图灵测试的探讨：

既然说图灵测试可以用作弊的方式解决，在这种情形下，产生了VQA：

http://www.visualqa.org/

加入计算机视觉和思考，使得测试变得更加复杂，解决问题本身的，做测试的时候，所有种族等，所有输入都是相等的，有不equal的情况下，

不光光指出图片中有什么？还有相应的思考？整个过程逻辑思考非常复杂的。

如果黑盒的AI系统可以实现，就认为这个测试更加科学严谨

主要涉及：1、NLP；2、computer Vision ；（可使用CNN等） 3、“common-sense” reasoning（常识：逻辑推导的过程）open dommen

三大块每一块都非常深的领域，VQA每几年都会更新。

VQA模型：

第一步生成答案：weak AI：下围棋等；

strong AI：当你女朋友，把一系列weak AI合成强AI。

取出前1000个最容易被回答的答案，作为y label，X 就是VQA每年发布的数据库。

类似于用no回答所有的问题，有60%的准确率。

第二步图片处理：

形成最好的filter，最好的特征值表达形式，深度学习领域如果有一套牛逼的参数，例如VGG-16,这个模型，在图片识别，图片分类这个领域上，会使用VGG-16这套算法

第二步处理输入源数据

1、Rule-Based问题分为100种

2、Word Vector 算出特征表达式，表达这句话即可。

第三步选取VQA模型-MLP

把文字和图片的feature （数组）首尾相接拼接作为新的输入，只要有能独特表达图片和文字，更能表达这个问题，MLP，得到1000维的结果，选出概率最大的那个结果，就出第几个问题回答。

第三步选取VQA模型-LSTM

语境上下文关联

图灵机器人——VQA模型的介绍