WikiWrite: Generating Wikipedia Articles Automatically笔记

1.document embeddings → 获得单词和段落的矢量表示 → 向量算相似度 →判别不同的文章(分类器)

2.两步的整数线性规划(ILP)模型 → summarize & rewrite

假设1：类别信息是已知的，文章通常属于多个类别，而这些类别往往不是同等重要的。

文章从多个类别总结 → 问题：

我们使用段落向量模型(Le and Mikolov, 2014)来获得红色链接实体的向量表示，该模型计算可变长度文本的连续分布向量表示。

我们利用词对**(名词和动词)在句子之间的转换概率来计算任意两个句子之间的连贯性得分**。

前人使用category，限制在一个category中只有几个重要的部分，导致错过了在stubs中附加相关的部分
- 与之前的工作相比，我们的方法不需要维基百科的categories信息。
最近的工作：single document extractive summarization.
- 本文：multi-document abstractive summarization

想实现的是，没有相应文章的维基百科实体生成一个不侵权的文章

类似的实体在Wikipedia的其他文章中也在类似的上下文中提到过。

例如，实体Sonia Bianchetti在英文维基百科中并没有相应的文章(截至2015年11月)，但是会在referee,judge等词的上下文出现。

因此，我们可以借鉴类似文章的结构来创建实体的文章。

paragraph vector distributed memory

作用：

直接用gensim包里的doc2vec

我们需要从web中检索与实体相关的具有信息的文本片段，并将它们分配到本文中适当的部分中
- 语义上相似的部分可能有不同的标题，所以作者用了repeated bisection clustering (RBR)保证每个聚类内部的相似度都在0.5以上
我们需要有效地总结和重写分配的内容
- 意译 →生成新句子：word-graph construction ， bigram

WikiWrite: Generating Wikipedia Articles Automatically笔记

线性规划选句子
- $p_i$ 和 $arc_{i,j}$ 都是01变量，表示句子是否选中，以及i,j是否相邻
- 考虑了句子的质量：句子的权重 $w^{p_i}$ 就是由句子的语言质量LQ和、句子的重要性 $I^{p_i}$ 、平均向量的相似度计算出的
- 考虑了句子之间的连贯性： $coh_{i,j}$ 衡量句子i,j之间的连贯性
改写句子
- 使用的是trigram
- 又是一个线性规划，针对覆盖性、语言质量进行了限制

实验用2015年的维基语料，有50GB，480万文章，15500个红色链接

基准模型重建文章的时候，由于时间长，只选1000篇构建文章

WikiWrite在分类任务上的表现优于WikiKreator

有摘要器的系统保留更多的信息

没有用类别信息，而是从相似的文章学习内容模板
我们利用词对**(名词和动词)在句子之间的转换概率来计算任意两个句子之间的连贯性得分**，转移概率是从相似文章中相邻句子对中获得的，这个过程好像可以复现
gensim包里的doc2vec