【发布时间】:2020-07-13 00:38:08
【问题描述】:
我有一个 Moby Dick Corpus,我需要计算二元“象牙腿”的概率。 我知道这个命令给了我所有二元组的列表
bigrams = [w1+" "+w2 for w1,w2 in zip(words[:-1], words[1:])]
但是我怎样才能得到这两个词的概率呢?
【问题讨论】:
-
您能否更具体地说明两个词的概率是什么意思。通常,NLK 中的二元组被计算为条件概率。即
P(W[n] | W[n-1])是你想要做的,还是别的什么? -
是的,就是这样。当我需要从语料库中获取代码时,如何在代码上编写它?