ps.写这个博客仅为记录个人学习情况,若大家想系统了解这两篇文章,指路
【读】seq2seq—(2)Abstractive Sentence Summarization with Attentive Recurrent Neural Networks。大佬写的蛮好的,清晰易懂,而且是对比阅读式的,比我这篇好多了。
本周阅读了两篇摘要生成领域的高被引经典文献,分别是《A Neural Attention Model for Abstractive Sentence Summarization》(EMNLP2015)和《Abstractive Sentence Summarization with Attentive Recurrent Neural Networks》(ACL2016)。其中,前者是后者的基础。
在本篇博客中,仅介绍第一篇文章。作者尝试将seq2seq+attention运用于摘要生成任务上,使用纯data-driven的方式生成句子摘要,attention使用的是局部注意力机制(local attention-based model)。模型结构简单(可套用end-to-end),但训练容易,应用效果较好,与baseline相比在DUC-2004任务上效果较好。
Introduction
文章关注句子级摘要任务(the task of sentence-level summarization)。作者受到神经网络应用于机器翻译的启发,将神经网络模型与编码器结合起来。在encoder部分使用attention-based encoder (),decoder使用beam search进行摘要生成。
该方法称为基于注意的摘要(ABS,Attention-Based Summarization),它比同类的抽象摘要方法包含更少的语言结构,但容易实现大规模的训练。
Background
这部分里,作者用数学语言描述了文章要解决的问题。
要实现的目标是:给定一个输入句子,生成一个压缩的摘要。
注意,与机器翻译等相关任务相比,该方法在生成摘要之前就固定了假设输出长度N。
问题的数学描述如下:
使用abstractive方法,其中,X是输入的句子,Y是一组可能的摘要集合(长度为N)。并尝试从Y中去找到最优的序列。
而extractive方法目标函数的定义为:
compression方法目标函数的定义为:
虽然生成式摘要(abstractive summarization)更为困难,但硬性约束条件的缺乏也给了系统更多的生成自由,并允许它适应更大范围的训练数据。
文章考虑了scoring functions,考虑到了之前单词的窗口信息:
考虑输入条件下摘要的条件对数概率
Model
参数化的核心是用于估计下一个单词的上下文概率的语言模型。该语言模型采用了标准的前馈神经网络语言模型(NNLM),特别是Bengio等人(2003)描述的NNLMs。
Encoder
文章提出了3种Encoder,分别为Bag-of-Words Encoder、Convolutional Encoder和Attention-Based Encoder。
Bag-of-Words Encoder
词袋模型忽略了原始顺序或相邻单词之间的关系的属性,但可以捕捉到单词的相对重要性,从而区分实词与停用或修饰词。尽管它在表示连续短语方面能力有限,但模型也可以学会组合单词。
Convolutional Encoder
该方法改进了词袋模型,允许单词间交互,不需要上下文Yc。
Attention-Based Encoder
采用了一种类似词袋模型的注意力机制:
Decoder
Decoder用的是NNLM
Training
使用mini-batch SGD最小化损失。
Generating Summaries
目标:
Beam Search算法:
Experimental
Data Set: DUC-2004