【问题标题】:What are some good resources to learn about automatic, learning based document summarization?有哪些关于自动、基于学习的文档摘要的好资源?
【发布时间】:2014-08-31 12:28:19
【问题描述】:

文档摘要可以通过从源文档中提取文本来完成或者您可以使用学习算法来破译文档所传达的内容,然后使用语言生成摘要生成技术(很像人类)。

后一种方法是否有算法或现有的研究工作?一般来说,有哪些很好的资源可以用来学习文档摘要技术?

【问题讨论】:

    标签: machine-learning nlp


    【解决方案1】:

    您正在寻找的主题在计算机科学社区中称为Automatic Summarization

    自动摘要是使用计算机程序缩减文本文档以创建保留原始文档最重要点的摘要的过程。

    自动摘要的方法包括基于提取、基于抽象、基于最大熵和辅助摘要。

    这是一篇关于这个主题的好 survey 论文。您可能还想看看另外两篇论文:12

    希望对您有所帮助。

    【讨论】:

    • 是的,我专门寻找基于抽象的摘要算法(不是基于提取的)。感谢您提供这些资源,我将通过它们。但是似乎很少有关于基于抽象的摘要的研究工作,也没有多少在线帮助可以找到..
    • @sanjeevmk 你有没有找到更多关于抽象摘要的信息?我也有兴趣寻找工具来帮助解决这个问题,到目前为止,这项研究还很薄弱。
    【解决方案2】:

    自动文本摘要通常有两种类型:抽象和提取。抽象方法比提取方法有点复杂。在第一个中,从句子中提取重要特征、关键信息。使用自然语言生成技术,使用这些特征生成新句子。

    然而,在后面的方法中,所有的句子都使用词汇排序、词汇链接等方法进行排序。相似的句子使用余弦相似度、模糊匹配等方法进行聚类。聚类中最重要的句子用于生成给定文档的摘要。

    从各种来源编译的一些现有的自动文档文本摘要工作和技术:

    1. Semantria method of lexical chaining
    2. MEAD
    3. http://dl.acm.org/citation.cfm?id=81789
    4. https://www.cs.cmu.edu/~afm/Home_files/Das_Martins_survey_summarization.pdf
    5. http://www.upf.edu/pdi/iula/iria.dacunha/docums/cicling2013LNCS.pdf

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2010-09-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-04-24
      • 2010-10-03
      • 2010-10-05
      相关资源
      最近更新 更多