【发布时间】:2021-07-22 08:00:38
【问题描述】:
我正在使用 PyTorch 的 BertForTokenClassification 预训练模型进行自定义词标记(不是 NER 或 POS,但基本相同)。有 20 种不同的可能标签(使用 BIO 方案):9 个 B、9 个 I 和一个 O。尽管有 19 个可能的标签,但在 BERT 之上添加的前馈层有 20 个标签。我也使用过其他数据集,结果是一样的:输出总是比类数多一个。谁能告诉我这是为什么?
【问题讨论】:
-
这似乎不是这样。您确定模型配置
model.config的num_labels属性设置为19 吗?如果没有,你是如何初始化模型的? -
@KonstantinosKokos 该号码未手动设置。它是根据数据集中唯一标签的数量(我手动验证的)设置的。
标签: pytorch bert-language-model huggingface-transformers named-entity-recognition