版权声明:本文为博主原创文章,未经博主允许不得转载。禁止抄袭。
由于作者资历尚浅,有理解错误的地方欢迎大家指正和交流。
论文简介
论文题目: Learning Text Similarity with Siamese Recurrent Networks
论文地址:http://www.aclweb.org/anthology/W16-16#page=162
作者:Paul Neculoiu, Maarten Versteegh and Mihai Rotaru
作者单位:Textkernel B.V. Amsterdam(Textkernel 是 LinkedIn 的AI版本?)
出版单位:Annual Meeting of the Association for Computational Linguistics(ACL)
发表时间:2016.9
模型图
贡献点:
1.语言规范化(Normalization)很重要,而规范化严重依赖于语义相似度。如(12pm,noon,12.00h)(李小龙,Bruce Lee,Lee Jun-fan)应当被归于相同的表示。present a system for job title normalization(论文阅读-文本匹配(一) 孪生LSTM是学术界研究,而这篇论文是工业界实用)
2.w2v词嵌入取得不错的效果,但是使用字符级的可以更好地处理OOV问题
3.比较孪生结构(通过明确的相似性信息来学习不变性和选择性的表征)和自编码结构(增加噪声和降维来学习不变性)。
4.传统job title normalization分类模型的缺点:
4.1 数据标注昂贵
4.2 缺乏可控性(分类错误或新添加一条数据,模型需要重新训练)
4.3 不能够迁移学习(模型表示重用于不同的任务)
5. LOSS函数的创新。
6.数据增强(Data Augmentation)【分为四种数据上看效果,详见实验数据第2点】
实验数据:
1.19,927 job titles into 4,431 groups.
2.对数据的处理(Data Augmentation)
2.1 拼写错误【10%的数据,随机取代20%字符,删除5%字符】
2.2 同义词替换
2.3 多余的单词
2.4 随着知识增加,模型可修改
3. 长尾分布
细节:
1.权重共享,度量方式使用余弦相似度。
2.字符个数padding到100,Adam优化,drop_out(recurrent: 0.2,between: 0.4)
3.正负比例1:4