【问题标题】:Compare two sentences on basis of grammar using NLP使用 NLP 根据语法比较两个句子
【发布时间】:2017-10-13 15:01:43
【问题描述】:

我有 2 个句子要根据它们使用 NLP 的语法进行比较。我对 NLP 完全陌生,想知道是否有算法可以确定这一点。我知道如何使用单词相似度和情感进行比较。

【问题讨论】:

  • “根据他们的语法比较”你能详细说明一下吗?也许有一个例子?
  • 假设我有以下句子:“我喜欢热狗”和“我父亲最喜欢的食物是热狗”。现在我想通过使用 NLP 来比较这两个句子在语法方面的相似程度。
  • 我还不清楚你到底想要什么,比较一下他们有多少常用动词?还是常用形容词?还是依赖解析结构,这个结构有多常见?
  • 我没有考虑过结构,但既然你提到了结构,我会尝试一下。您的任何帮助都会非常有帮助。

标签: python-2.7 nlp nltk


【解决方案1】:

你可以使用 nltk wordnet 的 synsets 来衡量两个句子之间的相似度

这里是如何在不指定语法的情况下生成所有可能的同义词,您可以稍后根据特定标准选择要使用的同义词

import pandas as pd
import nltk
from nltk.stem.porter import PorterStemmer
from nltk.corpus import wordnet as wn
import itertools

#use stemmer 
stm = PorterStemmer()
sent1 =  "I like hot dogs"
sent2 = "My father's favourite food is hot dog"
#Convert the tag given by nltk.pos_tag to the tag used by wordnet.synsets
tag_dict = {'N': 'n', 'J': 'a', 'R': 'r', 'V': 'v'}

s1 = nltk.pos_tag(nltk.word_tokenize(sent1))

s1 = dict(filter(lambda x: len(x[1])>0,
                 map(lambda row: (row[0],wn.synsets(
                       stm.stem(row[0]),
                       tag_dict[row[1][0]])) if row[1][0] in tag_dict.keys() 
                     else (row[0],[]),s1)))

s2 = nltk.pos_tag(nltk.word_tokenize(sent2))

s2 = dict(filter(lambda x: len(x[1])>0,
                 map(lambda row: (row[0],wn.synsets(
                          stm.stem(row[0]),
                          tag_dict[row[1][0]])) if row[1][0] in tag_dict.keys() 
                     else (row[0],[]),s2)))

这是字典 s1 中的值示例

dogs    [Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n...
hot     [Synset('hot.a.01'), Synset('hot.s.02'), Synset('hot.a.03'), Synset('hot.s.0...
like    [Synset('wish.v.02'), Synset('like.v.02'), Synset('like.v.03'), Synset('like...

这是一种方法。在这里,我测量两个单词的所有可能的同义词集之间的相似性,然后取最大值。

res = {}
for w2,gr2 in s2.items():
    for w1,gr1 in s1.items():
        tmp = pd.Series(list(map(lambda row: row[1].path_similarity(row[0]),
                                 itertools.product(gr1,gr2)))).dropna()
        if len(tmp)>0:
            res[(w1,w2)] = tmp.max()
print(res)

输出

{('dogs', 'dog'): 1.0,
 ('dogs', 'father'): 0.16666666666666666,
 ('dogs', 'food'): 0.25,
 ('dogs', 'is'): 0.10000000000000001,
 ('hot', 'hot'): 1.0,
 ('hot', 'is'): 0.33333333333333331,
 ('like', 'is'): 0.33333333333333331}

现在我们找到句子中每个单词达到的最大相似度。然后取平均值

similarity = pd.Series(res).groupby(level=0).max().mean()
print(similarity)

输出是.778

以上是衡量文档相似度的常用方法。如果您想比较语法,您可能需要在两个句子上使用像 pos_tag 这样的词性标注器(或使用像 nltk.corpus.brown.tagged_words() 这样的标记语料库),然后找到标签之间的 Jaccard 距离。

【讨论】:

  • 抱歉这么晚才回复,谢谢!这是我需要的东西。我以前用过同义词,但是为了比较单个单词,不知道如何用同义词比较句子。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-03-29
  • 2020-03-20
  • 2016-01-21
  • 1970-01-01
  • 1970-01-01
  • 2019-08-30
相关资源
最近更新 更多