Spacy（3.1 版）POS 标记器是否依赖于解析器？答案

【问题标题】：Does Spacy's (version3.1) POS tagger depends on parser?Spacy（3.1 版）POS 标记器是否依赖于解析器？
【发布时间】：2021-09-24 11:05:09
【问题描述】：

我正在使用 Spacy 获取 POS 标签。为了使代码更快，我使用了 nlp.pipe 并尝试禁用我不需要的组件。如果我禁用“解析器”，我会得到 AUX 和 VERB 的非常不同的结果。但是，名词和 ADJ 的结果是相似的。似乎我们需要“解析器”和“标记器”来获得正确数量的动词和辅助。我的解释正确吗？

此外，文档说我们需要“解析器”来进行词形还原。但由于 POS 标签依赖于“标注器”。但由于 POS 标签依赖于“解析器”。我们是否需要“解析器”和“标记器”来进行词形还原，或者我可以禁用“解析器”来进行词形还原吗？

【问题讨论】：

标签： spacy lemmatization

【解决方案1】：

POS 标签来自将token.tag 映射到attribute_ruler 组件中的token.pos 的规则。如果依赖解析可用，则可以应用与AUX 和VERB 相关的更具体的规则。映射很难做到完美，因为来自标记器的token.tag PTB 标记根本不区分辅助/动词。

如果您需要带有en_core_web_* 的POS 标签，则至少需要tok2vec+tagger+attribute_ruler。您可以选择添加parser，但这不是必需的。

管道设计的完整描述在这里：https://spacy.io/models#design

【讨论】：

谢谢。这就解释了差异。我们需要“解析器”来进行词形还原吗？ VERB、AUX 的区别对 lemmatizer 重要吗？
当前的英语词形还原器对 VERB 有规则，对 AUX 没有任何规则。对于 AUX，引理由属性标尺规则设置。您可以检查您的数据以确保有/没有解析器的管道。如果它确实有所作为，我认为它只会影响“是”的形式。如果您需要不同的 AUX 引理，您可以在属性标尺中添加/编辑规则（例如，“可以”->“可以”）。即将推出的 v3.2.0 模型将修复一些与收缩相关的引理，例如“can't”中的“ca”和“won't”中的“wo”，其中 v3.0.0 和 v3.1.0 中缺少规则。