词性标注：标注未知词答案

【问题标题】：Part of speech tagging : tagging unknown words词性标注：标注未知词
【发布时间】：2012-09-27 02:37:43
【问题描述】：

在词性标注器中，给定句子的最佳可能标签是使用 HMM 确定的

    P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
              T

但是当训练语料库中没有出现“Word”时，P(Word/Tag) 对给定所有可能的标签产生零，这就没有选择最好的空间了。

我尝试了几种方法，

1) 为所有未知词分配少量概率，P(UnknownWord/AnyTag)~Epsilon... 意味着通过分配恒定概率，这完全忽略了未知词的 P(Word/Tag)。所以决策未知词是先验概率。正如预期的那样，它不会产生好的结果。

2) 拉普拉斯平滑我对此感到困惑。我不知道（1）和这个有什么区别。我理解拉普拉斯平滑的方式将常数概率（lambda）添加到所有未知和已知单词。所以所有未知单词将获得恒定概率（lambda 的分数）并且已知单词概率将相对相同，因为所有单词的概率增加了拉姆达。拉普拉斯平滑和上一个一样吗？

*)有没有更好的处理生词的方法？

【问题讨论】：

标签： nlp pos-tagger oov

【解决方案1】：

您的两种方法相似，但是，如果我理解正确，它们在一个关键方面有所不同。在 (1) 中，您将额外的质量分配给未知单词的计数，在 (2) 中，您将额外的质量分配给所有计数。你肯定想做 (2) 而不是 (1)。

拉普拉斯平滑的一个问题是，它对未知词给予了过多的提升，并且过多地降低了高概率词的概率（相对而言）。您的版本 (1) 实际上会使这个问题恶化。基本上，它会过于平滑。

拉普拉斯平滑词对于 HMM 来说是可以的，但它不是很好。大多数人会进行加一平滑，但您可以尝试加一平滑之类的东西。

如果您想超越这种幼稚的平滑方法，请查看“单计数平滑”，如Jason Eisner's HMM tutorial 的附录中所述。这里的基本思想是，对于未知词，应该为出现更广泛低频词的标签赋予更大的概率质量。例如，由于标签 NOUN 出现在大量不同的词上，而 DETERMINER 出现在少量不同的词上，所以一个看不见的词更有可能是一个名词。

如果您想变得更漂亮，可以使用从非参数贝叶斯统计数据中提取的中餐厅流程模型，对看不见的词/标签组合进行先验分布。 Kevin Knight's Bayesian inference tutorial有详细信息。

【讨论】：

【解决方案2】：

我认为基于 HMM 的TnT tagger 提供了一种更好的方法来处理未知单词（参见TnT tagger's paper 中的方法）。

保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语等 13 种语言的 TnT 和其他两个词性和形态标记器的准确度结果（已知词和未知词）和越南语，可以在this article找到。

【讨论】：