【发布时间】:2019-08-02 20:02:01
【问题描述】:
下面有一些代码可以为我的数据框列生成二元组。
import nltk
import collections
counts = collections.Counter()
for sent in df["message"]:
words = nltk.word_tokenize(sent)
counts.update(nltk.bigrams(words))
counts = {k: v for k, v in counts.items() if v > 25}
这非常适合在我的数据框的“消息”列中生成我最常见的二元组,但是,我想获得每对二元组仅包含一个动词和一个名词的二元组。
任何使用 spaCy 或 nltk 的帮助将不胜感激!
【问题讨论】:
-
举个例子就好了。
-
@acodejdatam 你的意思是 N, V 和 V, N 双元组吗?
-
@ongenz,是的。我只想要名词动词和动词名词bigrams。