【问题标题】:Part of speech tagging : tagging unknown words词性标注:标注未知词
【发布时间】:2012-09-27 02:37:43
【问题描述】:

在词性标注器中,给定句子的最佳可能标签是使用 HMM 确定的

    P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
              T

但是当训练语料库中没有出现“Word”时,P(Word/Tag) 对给定所有可能的标签产生零,这就没有选择最好的空间了。

我尝试了几种方法,

1) 为所有未知词分配少量概率,P(UnknownWord/AnyTag)~Epsilon... 意味着通过分配恒定概率,这完全忽略了未知词的 P(Word/Tag)。所以决策未知词是先验概率。正如预期的那样,它不会产生好的结果。

2) 拉普拉斯平滑 我对此感到困惑。我不知道(1)和这个有什么区别。我理解拉普拉斯平滑的方式将常数概率(lambda)添加到所有未知和已知单词。所以所有未知单词将获得恒定概率(lambda 的分数)并且已知单词概率将相对相同,因为所有单词的概率增加了拉姆达。 拉普拉斯平滑和上一个一样吗?

*)有没有更好的处理生词的方法?

【问题讨论】:

    标签: nlp pos-tagger oov


    【解决方案1】:

    您的两种方法相似,但是,如果我理解正确,它们在一个关键方面有所不同。在 (1) 中,您将额外的质量分配给未知单词的计数,在 (2) 中,您将额外的质量分配给所有计数。你肯定想做 (2) 而不是 (1)。

    拉普拉斯平滑的一个问题是,它对未知词给予了过多的提升,并且过多地降低了高概率词的概率(相对而言)。您的版本 (1) 实际上会使这个问题恶化。基本上,它会过于平滑。

    拉普拉斯平滑词对于 HMM 来说是可以的,但它不是很好。大多数人会进行加一平滑,但您可以尝试加一平滑之类的东西。

    如果您想超越这种幼稚的平滑方法,请查看“单计数平滑”,如Jason Eisner's HMM tutorial 的附录中所述。这里的基本思想是,对于未知词,应该为出现更广泛低频词的标签赋予更大的概率质量。例如,由于标签 NOUN 出现在大量不同的词上,而 DETERMINER 出现在少量不同的词上,所以一个看不见的词更有可能是一个名词。

    如果您想变得更漂亮,可以使用从非参数贝叶斯统计数据中提取的中餐厅流程模型,对看不见的词/标签组合进行先验分布。 Kevin Knight's Bayesian inference tutorial有详细信息。

    【讨论】:

      【解决方案2】:

      我认为基于 HMM 的TnT tagger 提供了一种更好的方法来处理未知单词(参见TnT tagger's paper 中的方法)。

      保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语等 13 种语言的 TnT 和其他两个词性和形态标记器的准确度结果(已知词和未知词)和越南语,可以在this article找到。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2012-11-11
        • 1970-01-01
        • 2014-02-26
        相关资源
        最近更新 更多