【发布时间】:2014-06-02 07:19:35
【问题描述】:
我了解词性标记的隐含价值,并且已经看到有关其在解析、文本到语音转换等方面的用途的提及。
您能告诉我 PoS 标记器的输出是如何形成的吗? 另外,您能否解释一下 NLP 系统的其他任务/部分如何使用这种输出?
【问题讨论】:
-
我更感兴趣的是:典型 NLP 管道的哪些阶段/任务可能会利用 POS 标注器的输出——以及它们如何利用它?
标签: nlp part-of-speech
我了解词性标记的隐含价值,并且已经看到有关其在解析、文本到语音转换等方面的用途的提及。
您能告诉我 PoS 标记器的输出是如何形成的吗? 另外,您能否解释一下 NLP 系统的其他任务/部分如何使用这种输出?
【问题讨论】:
标签: nlp part-of-speech
PoS 标记的一个目的是消除同音异义词的歧义。 比如这句话:
我钓了一条鱼
法语中的同一句话是Je pêche un poisson。 如果没有标记,fish 在两种情况下都会以相同的方式翻译,这将导致 一个错误的转导。但是,在 PoS 标记之后,句子将是
I_PRON fish_VERB a_DET fish_NOUN
从计算机的角度来看,这两个词现在是不同的。这样,它们可以更有效地处理(在我们的示例中,fish_VERB 将被翻译为 pêche,fish_NOUN 将被翻译为 poisson)。
【讨论】:
基本上,词性标注器的目标是将语言(主要是语法)信息分配给子句单元。这样的单位被称为记号,在大多数情况下,对应于单词和符号(例如标点符号)。
考虑到输出的格式,只要您获得一系列标记/标签对,这并不重要。一些 POS 标记器允许您指定一些特定的输出格式,其他的使用 XML 或 CSV/TSV,等等。
【讨论】: