【问题标题】:POS Tagger issue for Singular and Plural Nouns单数和复数名词的词性标注问题
【发布时间】:2016-07-25 04:26:09
【问题描述】:

输入文本:我总是喜欢热鸡蛋 输出 [('i', 'NN'), ('always', 'RB'), ('like', 'IN'), ('hot', 'JJ'), ('Eggs', 'NNP') ]

根据 PTB postag NNP 是单数,但为什么在这种情况下它给出 NNP 为什么不给出 NNS

【问题讨论】:

    标签: nlp stanford-nlp pos-tagger postageapp


    【解决方案1】:

    大写首字母会误导 POS 标注器失败。把它改成eggs,你会得到NNS。

    【讨论】:

    • 您是 100% 正确的,但关键是我需要将整个数据集转换为更低吗? .so 如果它找到某人的名字,它也会成为 NNS,你怎么看?
    • 不,您不应该转换数据。您只需要接受数据不干净和 POS 标签并不总是正确的事实。
    • 太棒了,但你能帮我或给我提示我如何清理这个。说真的,我明白你的意思,这太棒了
    • 在机器翻译 (MT) 中搜索 true-caser。必须有一些脚本。从记忆中:Moses MT 管道中有一个真正的案例,您可以在大量纯文本上进行训练。它将学习单词的正确大写/小写变体,并将测试数据转换为它在训练中学到的任何内容。所以可能(不确定)这会将您的 Eggs 更改为 Eggs,并将专有名词保留为专有名词(即作为大写首字母)。请注意,如果您在混乱或不足的文本上训练它,它可能会适得其反——这就是我不推荐它的原因......
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-11-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多