斯坦福CS224n NLP课程【十六】——用于回答问题的动态神经网络

是否将所有NLP任务都可视作QA？

举例：

在old-school NLP系统中，必须手工整理一个“知识库”；然后在这个知识库上做规则推断。这节课介绍的DMN完全不同于这种方法，它能够直接从问答语料中学习所有必要的知识表达。

DMN还可以在问答中做情感分析、词性标注和机器翻译。所以构建一个joint model用于通用QA成为终极目标。

但是实现这个目标，有两个障碍

1.没有任何已有研究探讨如何让单个模型学习各种不同的任务。每种任务都有独特的特点，适合不同的神经网络去实现

斯坦福CS224n NLP课程【十六】——用于回答问题的动态神经网络

2.Fully joint multitask learning（同一个decoder/classifier，不仅仅共享词向量，而应该共享全部参数）非常困难。有些不成功的研究发现，只能在低层（词向量）共享参数、如果任务之间没有直接关联则会顾此失彼。

斯坦福CS224n NLP课程【十六】——用于回答问题的动态神经网络

DMN 今天介绍的DMN仅仅解决了第一个问题。虽然有些超参数还是得因任务而异，但总算是个通用的架构了。

回答难题：假设有个阅读理解题目

斯坦福CS224n NLP课程【十六】——用于回答问题的动态神经网络

你无法记住全文，但看了问题之后，只要带着问题扫几眼原文，你就能找出答案。这种现象启发了DMN。

首先对整个框架有所了解：

斯坦福CS224n NLP课程【十六】——用于回答问题的动态神经网络

左边输入input的每个句子每个单词的词向量，送入input module的GRU中。同样对于Question Module，也是一个GRU，两个GRU可以共享权值。

Question Module计算出一个Question Vector q，根据q应用attention机制，回顾input的不同时刻。根据attention强度的不同，忽略了一些input，而注意到另一些input。这些input进入Episodic Memory Module，注意到问题是关于足球位置的，那么所有与足球及位置的input被送入该模块。该模块每个隐藏状态输入Answer module，softmax得到答案序列。

有人问DMN能否学会新类型的问题，答案是否定的。Episodic Memory Module中有两条线，分别代表带着问题q第一次阅读input的记忆，以及带着问题q第二次阅读的记忆。

讲各个模块的细节：

The Modules: input

斯坦福CS224n NLP课程【十六】——用于回答问题的动态神经网络

输入模块接受 T_I个输入单词，输出T_C个“事实”的表示。如果输出是一系列词语，那么有T_C=T_I；如果输出是一系列句子，那么约定T_C表示句子的数量，T_I表示句子中单词的数量。我们使用简单的GRU读入句子，得到隐藏状态h_t=GRU(x_t,h_t−1)，其中x_t=L[w_t]，L是embedding matrix，w_t 是时刻 t 的词语。

事实上，还可以将这个Uni-GRU升级为Bi-GRU：每个fact被表示为双向隐藏状态的拼接。

斯坦福CS224n NLP课程【十六】——用于回答问题的动态神经网络