【发布时间】:2014-08-31 12:28:19
【问题描述】:
文档摘要可以通过从源文档中提取文本来完成或者您可以使用学习算法来破译文档所传达的内容,然后使用语言生成摘要生成技术(很像人类)。
后一种方法是否有算法或现有的研究工作?一般来说,有哪些很好的资源可以用来学习文档摘要技术?
【问题讨论】:
标签: machine-learning nlp
文档摘要可以通过从源文档中提取文本来完成或者您可以使用学习算法来破译文档所传达的内容,然后使用语言生成摘要生成技术(很像人类)。
后一种方法是否有算法或现有的研究工作?一般来说,有哪些很好的资源可以用来学习文档摘要技术?
【问题讨论】:
标签: machine-learning nlp
您正在寻找的主题在计算机科学社区中称为Automatic Summarization。
自动摘要是使用计算机程序缩减文本文档以创建保留原始文档最重要点的摘要的过程。
自动摘要的方法包括基于提取、基于抽象、基于最大熵和辅助摘要。
这是一篇关于这个主题的好 survey 论文。您可能还想看看另外两篇论文:1 和 2。
希望对您有所帮助。
【讨论】:
自动文本摘要通常有两种类型:抽象和提取。抽象方法比提取方法有点复杂。在第一个中,从句子中提取重要特征、关键信息。使用自然语言生成技术,使用这些特征生成新句子。
然而,在后面的方法中,所有的句子都使用词汇排序、词汇链接等方法进行排序。相似的句子使用余弦相似度、模糊匹配等方法进行聚类。聚类中最重要的句子用于生成给定文档的摘要。
从各种来源编译的一些现有的自动文档文本摘要工作和技术:
【讨论】: