【问题标题】:Replacement by synsets in Python pattern packatge用 Python 模式包中的同义词替换
【发布时间】:2025-12-23 12:30:15
【问题描述】:

我的目标是创建一个系统,该系统将能够获取任何随机文本、提取句子、删除标点符号,然后在裸句(其中一个)上随机替换 NN 或 VB 标记的单词及其词组, holonym 或 synonim 以及来自 WordNet 同义词的相似词。前面还有很多工作要做,但我一开始就有问题。

为此,我使用模式和 TextBlob 包。这就是我到目前为止所做的......

from pattern.web import URL, plaintext
from pattern.text import tokenize
from pattern.text.en import wordnet
from textblob import TextBlob
import string

s = URL('http://www.fangraphs.com/blogs/the-fringe-five-baseballs-most-compelling-fringe-prospects-35/#more-157570').download()
s = plaintext(s, keep=[])
secam = (tokenize(s, punctuation=""))
simica = secam[15].strip(string.punctuation)
simica = simica.replace(",", "")

simica = TextBlob(simica)
simicaTg = simica.words

synsimica = wordnet.synsets(simicaTg[3])[0]
djidja = synsimica.hyponyms()

现在一切都按我想要的方式工作,但是当我尝试从这个 djidja 变量中提取即下位词时,它被证明是不可能的,因为它是一个 Synset 对象,我无论如何都无法操纵它。

知道如何提取下义词列表中报告的单词(即print(djidja[2]) 显示Synset(u'bowler')...那么如何仅从中提取'bowler')?

【问题讨论】:

    标签: python nlp wordnet textblob


    【解决方案1】:

    回想一下,同义词集只是标记为同义词的单词列表。给定日落,您可以提取构成它的单词:

    from pattern.text.en import wordnet
    s = wordnet.synsets('dog')[0] # a word can belong to many synsets, let's just use one for the sake of argument
    print(s.synonyms)
    

    这个输出:

    Out[14]: [u'dog', u'domestic dog', u'Canis familiaris']
    

    您还可以提取上位词和下位词:

    print(s.hypernyms())
    Out[16]: [Synset(u'canine'), Synset(u'domestic animal')]
    print(s.hypernyms()[0].synonyms)
    Out[17]: [u'canine', u'canid']
    

    【讨论】:

    • 感谢 mbbatchkarov 这正是我正在寻找的东西。同义词是通常的字符串,而同义词是不可变的对象。
    • 请注意nltk在python中也有类似的wordnet接口,github.com/nltk/nltk =)
    最近更新 更多