论文阅读-文本匹配（一）孪生LSTM

由于作者资历尚浅，有理解错误的地方欢迎大家指正和交流。

论文简介

论文题目： Siamese Recurrent Architectures for Learning Sentence Similarity

论文地址：https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/view/12195/12023

作者：Jonas Mueller，Aditya Thyagarajan

作者单位：Massachusetts Institute of Technology（MIT CSAIL）、M. S. Ramaiah Institute of Technology（印度 MSRIT）

出版单位：the Association for the Advance of Artificial Intelligence（AAAI）

发表时间：2016.2

模型图

论文阅读-文本匹配（一）孪生LSTM

贡献点：

1.提出新的度量方式（基于曼哈顿距离，见细节2）。优于欧几里得距离（梯度消失）、余弦相似度。【回归】

2.通过明确的指导（距离），使用简单LSTM能够建模复杂的语义。

3.使用MaLSTM features输入给SVM来进行分类。【分类】

实验数据：

1.The SICK data set （10k条）: http://clic.cimec.unitn.it/composes/sick.html

- sentence_A: sentence A
- sentence_B: sentence B
- entailment_label: textual entailment gold label (NEUTRAL, ENTAILMENT, or CONTRADICTION)
- relatedness_score: semantic relatedness gold score (on a 1-5 continuous scale)

1.1 回归问题，得分在1-5

1.2 分类问题，三类【entailment, contradiction, or neutral】

细节：

1.LSTM(a)和LSTM(b)权重设置一样(tied weights、主题一样)。在信息检索（IR）等其他应用场景可设置不一样(untied weights)。

2.度量方式使用基于曼哈顿距离d的dis=e^(-d),由于得分在1-5，因此做了dis*4.0+1.0的处理。简单的度量方式，让句子表示更好地表达复杂的语义关系。

3.LOSS函数使用MSE。训练使用BPTT。

4.词向量预训练（实验数据只有10k条），利用同义词扩充来数据增强。

5.input维度（300维）、hidden维度（50维）