【问题标题】:Does Spacy's (version3.1) POS tagger depends on parser?Spacy(3.1 版)POS 标记器是否依赖于解析器?
【发布时间】:2021-09-24 11:05:09
【问题描述】:

我正在使用 Spacy 获取 POS 标签。为了使代码更快,我使用了 nlp.pipe 并尝试禁用我不需要的组件。如果我禁用“解析器”,我会得到 AUX 和 VERB 的非常不同的结果。但是,名词和 ADJ 的结果是相似的。似乎我们需要“解析器”和“标记器”来获得正确数量的动词和辅助。我的解释正确吗?

此外,文档说我们需要“解析器”来进行词形还原。但由于 POS 标签依赖于“标注器”。但由于 POS 标签依赖于“解析器”。我们是否需要“解析器”和“标记器”来进行词形还原,或者我可以禁用“解析器”来进行词形还原吗?

【问题讨论】:

    标签: spacy lemmatization


    【解决方案1】:

    POS 标签来自将token.tag 映射到attribute_ruler 组件中的token.pos 的规则。如果依赖解析可用,则可以应用与AUXVERB 相关的更具体的规则。映射很难做到完美,因为来自标记器的token.tag PTB 标记根本不区分辅助/动词。

    如果您需要带有en_core_web_* 的POS 标签,则至少需要tok2vec+tagger+attribute_ruler。您可以选择添加parser,但这不是必需的。

    管道设计的完整描述在这里:https://spacy.io/models#design

    【讨论】:

    • 谢谢。这就解释了差异。我们需要“解析器”来进行词形还原吗? VERB、AUX 的区别对 lemmatizer 重要吗?
    • 当前的英语词形还原器对 VERB 有规则,对 AUX 没有任何规则。对于 AUX,引理由属性标尺规则设置。您可以检查您的数据以确保有/没有解析器的管道。如果它确实有所作为,我认为它只会影响“是”的形式。如果您需要不同的 AUX 引理,您可以在属性标尺中添加/编辑规则(例如,“可以”->“可以”)。即将推出的 v3.2.0 模型将修复一些与收缩相关的引理,例如“can't”中的“ca”和“won't”中的“wo”,其中 v3.0.0 和 v3.1.0 中缺少规则。
    猜你喜欢
    • 2013-04-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-12-17
    • 2018-05-13
    • 2016-03-10
    • 1970-01-01
    相关资源
    最近更新 更多