【发布时间】:2013-07-20 04:00:05
【问题描述】:
正如大多数拼写纠正导师所说,拼写错误的单词 x 的正确单词 W^ 是:
W^ = argmaxW P(X|W) P(W)
其中 P(X|W) 是可能性,P(W) 是语言模型。
在我学习拼写纠正的教程中,讲师说 P(X|W) 可以通过使用混淆矩阵来计算,该矩阵跟踪我们语料库中的一个字母被错误输入另一个字母的次数.我使用万维网作为我的语料库,不能保证一个字母被错误地键入另一个字母。那么,如果我使用 X 和 W 之间的 Levenshtein 距离而不是使用混淆矩阵,可以吗?有很大的不同吗?
我要计算列夫的方式。 python中的距离是这样的:
from difflib import SequenceMatcher
def similar(a, b):
return SequenceMatcher(None, a, b).ratio()
这里是让我的问题更清楚的教程:Click here
附言。我正在使用 Python
【问题讨论】:
标签: python nlp artificial-intelligence spelling