论文阅读-文本匹配（二）孪生char-BLSTM

由于作者资历尚浅，有理解错误的地方欢迎大家指正和交流。

论文简介

论文题目： Learning Text Similarity with Siamese Recurrent Networks

论文地址：http://www.aclweb.org/anthology/W16-16#page=162

作者：Paul Neculoiu, Maarten Versteegh and Mihai Rotaru

作者单位：Textkernel B.V. Amsterdam（Textkernel 是 LinkedIn 的AI版本？）

出版单位：Annual Meeting of the Association for Computational Linguistics(ACL)

发表时间：2016.9

模型图

论文阅读-文本匹配（二）孪生char-BLSTM

贡献点：

1.语言规范化（Normalization）很重要，而规范化严重依赖于语义相似度。如（12pm，noon，12.00h）（李小龙，Bruce Lee，Lee Jun-fan）应当被归于相同的表示。present a system for job title normalization（论文阅读-文本匹配（一）孪生LSTM是学术界研究，而这篇论文是工业界实用）

2.w2v词嵌入取得不错的效果，但是使用字符级的可以更好地处理OOV问题

3.比较孪生结构（通过明确的相似性信息来学习不变性和选择性的表征）和自编码结构（增加噪声和降维来学习不变性）。

4.传统job title normalization分类模型的缺点：

4.1 数据标注昂贵

4.2 缺乏可控性（分类错误或新添加一条数据，模型需要重新训练）

4.3 不能够迁移学习（模型表示重用于不同的任务）

5. LOSS函数的创新。

论文阅读-文本匹配（二）孪生char-BLSTM

6.数据增强（Data Augmentation）【分为四种数据上看效果，详见实验数据第2点】

实验数据：

1.19,927 job titles into 4,431 groups.

2.对数据的处理（Data Augmentation）

2.1 拼写错误【10%的数据，随机取代20%字符，删除5%字符】

2.2 同义词替换

2.3 多余的单词

2.4 随着知识增加，模型可修改

3. 长尾分布

论文阅读-文本匹配（二）孪生char-BLSTM

细节：

1.权重共享，度量方式使用余弦相似度。

2.字符个数padding到100，Adam优化，drop_out（recurrent: 0.2，between: 0.4）

3.正负比例1:4