【问题标题】:Extracting related text given a sentence, keywords or topic提取给定句子、关键字或主题的相关文本
【发布时间】:2013-11-06 17:32:09
【问题描述】:

是否有任何已知的方法(除了统计分析,但不一定将其排除为解决方案的一部分)使用自然语言处理将句子或概念相互关联。到目前为止,我只与 NLTK 和 Stanford-NLP 合作来帮助我的项目,但我对其他开源解决方案持开放态度。

以乔治·奥威尔的以下文章 (http://orwell.ru/library/essays/wiw/english/e_wiw) 为例。假设我给应用程序提供了句子

"What are George Orwell's opinions on writers." 

或许

"George Orwell believes writers enjoy writing to express their creativity, to make a point and for their egos."

可能会从文章中产生类似

"The aesthetic motive is very feeble in a lot of writers, but even a pamphleteer or writer of textbooks will have pet words and phrases which appeal to him for non-utilitarian reasons; or he may feel strongly about typography, width of margins, etc."

"Serious writers, I should say, are on the whole more vain and self-centered than journalists, though less interested in money."

我知道这并不容易,而且我可能无法达到很高的准确性,但我希望就已经存在的内容以及我可以尝试开始的内容提出想法,或者至少根据已经存在的内容获得可能的最佳结果众所周知。

【问题讨论】:

    标签: nlp semantics nltk stanford-nlp semantic-analysis


    【解决方案1】:

    执行此操作的最简单方法可能是在查询句子和句子池之间使用一些距离函数(例如余弦相似度)。这很容易实现。从文本集合中创建一个词汇表,每个句子都表示为一个向量。您可以使用 TF-IDF 表示向量中的值,并计算句子之间的余弦相似度,并获得相对于您的查询句子得分最高的句子。

    或者您可以从您的语料库构建索引并使用例如 Lucene 并让它为您完成工作。

    您也可以考虑使用 LSA(潜在语义分析)来获取句子之间的相似性。

    【讨论】:

    • 我已经尝试了其中一些方法,但它们是大多数“词袋”技术。我想我更感兴趣的是知道到目前为止是否有任何已知的方法来尝试理解匹配单词之外的句子中的含义。我知道这是一个困难且深入研究的领域,我只是很难确定它在这一点上的位置。感谢您的回复!
    【解决方案2】:

    根据我从您的问题(以及您的评论)中了解到的情况,您对理解单个句子的含义更感兴趣,然后将它们彼此等同起来。在我看来,统计方法更多的是为了“感受”句子而不是理解它。在我看来,我建议使用深度解析方法。

    深入解析句子,了解单词在句子中扮演的角色,了解主-动词-宾语模型(从左到右解析等技术),然后拥有一个词汇表来帮助您对名词和动词进行分类。

    例如

    "Serious writers, I should say, are on the whole more vain and self-centered than journalists, though less interested in money."
    

    解析这句话,让你明白这句话的主语是“认真的作家”(认真是形容词,作家基本上)。在动词形式中,它表示“是”(当前状态)和“感兴趣”。然后每个动词指向更多的词汇,包括形容词。如果您以正确的方式安排这些词汇表(并继续构建它),我认为您应该解决问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2010-12-28
      • 2011-06-17
      • 2021-07-07
      • 2021-08-13
      • 1970-01-01
      • 1970-01-01
      • 2020-12-02
      相关资源
      最近更新 更多