【发布时间】:2014-03-06 02:05:37
【问题描述】:
如果我已经知道某个单词的词性信息。
例如:我知道 st316(my id) 是专有名词 (NR)。在句子“I am st316”中。 如何让标注器使用st316是NR的信息,然后决定其他词的POS信息(我是)。
就像,
输入:我是 st316/NR。
输出:I/PN am/VC st316/NR ./PU
帮帮我。非常感谢!
【问题讨论】:
标签: nlp stanford-nlp pos-tagger
如果我已经知道某个单词的词性信息。
例如:我知道 st316(my id) 是专有名词 (NR)。在句子“I am st316”中。 如何让标注器使用st316是NR的信息,然后决定其他词的POS信息(我是)。
就像,
输入:我是 st316/NR。
输出:I/PN am/VC st316/NR ./PU
帮帮我。非常感谢!
【问题讨论】:
标签: nlp stanford-nlp pos-tagger
我能想到 2 个选项:
st316 必须标记为 X,而斯坦福未能将其标记为 X,请将st316 的标记更改为 X。这种方法的缺点是标记器无法使用该信息更好地标记句子的其余部分。如果选择选项 2,则需要按如下方式格式化数据:
An_DT avocet_NN is_VBZ a_DT small_JJ ,_, 可爱_JJ 鸟_NN ._. I_PRP am_VBP st316_NNP ._. I_PRP am_VBP st316_NNP ._. I_PRP am_VBP st316_NNP ._. I_PRP am_VBP st316_NNP ._. I_PRP am_VBP st316_NNP ._.第一行来自斯坦福常见问题解答。剩下的就是你的额外知识。请注意,重复了一个额外的句子。这是为了在该观察中添加伪计数。非正式地,如果你只在训练数据中包含一次st316_NNP,那么标注器可能会认为它是噪音/错误并忽略它。重复就像说“是的,我确定,我知道我在做什么,从这些数据中学习”。根据您拥有的数据量,您需要重复 5 到 50 次以确保标注器正确学习。
【讨论】: