【问题标题】:Concept Based Text Summarization (Abstraction) [closed]基于概念的文本摘要(抽象)[关闭]
【发布时间】:2015-07-07 12:40:27
【问题描述】:

我正在寻找一个基于句子的概念或含义进行 AI 文本摘要的引擎,我查看了一些开源项目,例如 (ginger, paraphrase, ace),但它们无法胜任。 他们的工作方式是尝试为每个单词找到同义词并用当前单词替换,这样他们会生成很多句子的替代词,但大多数时候意思是错误的。

我曾与斯坦福大学的引擎合作,为一篇文章做一些亮点,并在此基础上提取最重要的句子,但这仍然不是抽象,而是它的提取。

我正在寻找的引擎会随着时间的推移而学习,并且每次总结后结果都会得到改进。

请在这里帮忙,非常感谢您的帮助!

【问题讨论】:

  • 你创建了这个系统吗?
  • 不,还没有……
  • 我还建议您使用 word2vec 和 doc2vec 来处理所有例程,例如同义词、上下文中的词义和句子的一般类别。

标签: machine-learning nlp summarization


【解决方案1】:

我不知道任何符合您对抽象和含义的要求的开源项目。

但我有一个想法如何构建这样的引擎以及如何训练它。

总之,我想我们都记住了一些类似贝叶斯网络的结构,它不仅可以帮助我们对某些数据进行分类,还可以帮助我们形成关于文本或消息的抽象含义。

由于不可能从我们的脑海中提取所有抽象的类别结构,我认为最好建立一个允许逐步重建它的机制。

摘要

所提出的解决方案的关键思想是使用更容易从自动化计算机系统中操作的方法来提取对话的含义。这将允许创造与另一个人真实对话的良好水平的错觉。

提出的模型支持两个抽象级别:

首先,不太复杂的层次在于将单词组或单个单词识别为与类别、实例或实例属性相关的组。

实例是指从真实或抽象的主体、对象、动作、属性或其他类型的实例的一般类别中实例化。举个例子——两个或多个主体之间的具体关系:雇主和雇员之间的具体关系,具体的城市和它所在的国家等等。 这种基本的含义识别方法使我们能够创建具有维持对话能力的机器人。这种能力基于对意义的基本要素的识别:类别、实例和实例属性。

第二种,基于场景识别的最复杂的方法,并将它们与实例/类别一起存储到对话上下文中,并使用它们来完成一些已识别的场景。

相关场景将用于完成对话的下一条消息,并且某些场景可用于生成下一条消息或通过使用条件和使用上下文中的含义元素来识别含义元素。

类似的东西:

应手动输入基本分类,并在未来更正/添加教师。

对话中句子中的单词和句子中的场景可以从上下文中填充

对话场景/类别可以通过先前识别的实例或未来对话中描述的实例来完成(自学)

图 1 - 单词检测/分类基本上是流动视觉

图 2 – 通用系统视觉大图视图

图3——意义元素分类

图 4 - 基本上类别结构可能是这样的

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-06-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-09-13
    • 2014-01-28
    • 1970-01-01
    相关资源
    最近更新 更多