【发布时间】:2016-12-17 05:05:48
【问题描述】:
我正在浏览 Udacity 的 AI 课程介绍视频,但我似乎无法在脑海中形成一个想法。
据说对于长度为 n 的字符串,可以进行 2n-1 个分段。当我们采用朴素贝叶斯假设时,最佳分割 s* 可以定义为最大化的分割
产品(P(wi))
最好的可以写成:
s* = argmaxs P(first_word) * s*(rest_of_words)
我明白为什么以上是真的。导师说,由于上面的等式,我们不必枚举所有 2n-1 个案例。我无法理解其中的原因。
我也明白找到 P(single_word) 比为 n-gram 学习相同的概率要简单,这对计算也有帮助。
【问题讨论】:
标签: machine-learning nlp artificial-intelligence linguistics