【发布时间】:2012-09-27 02:37:43
【问题描述】:
在词性标注器中,给定句子的最佳可能标签是使用 HMM 确定的
P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
T
但是当训练语料库中没有出现“Word”时,P(Word/Tag) 对给定所有可能的标签产生零,这就没有选择最好的空间了。
我尝试了几种方法,
1) 为所有未知词分配少量概率,P(UnknownWord/AnyTag)~Epsilon... 意味着通过分配恒定概率,这完全忽略了未知词的 P(Word/Tag)。所以决策未知词是先验概率。正如预期的那样,它不会产生好的结果。
2) 拉普拉斯平滑 我对此感到困惑。我不知道(1)和这个有什么区别。我理解拉普拉斯平滑的方式将常数概率(lambda)添加到所有未知和已知单词。所以所有未知单词将获得恒定概率(lambda 的分数)并且已知单词概率将相对相同,因为所有单词的概率增加了拉姆达。 拉普拉斯平滑和上一个一样吗?
*)有没有更好的处理生词的方法?
【问题讨论】:
标签: nlp pos-tagger oov