【发布时间】:2021-10-23 09:42:51
【问题描述】:
我正在尝试使用 spacy 的自定义训练 NER 模型来预测实体。我读到https://github.com/explosion/spaCy/pull/8855 可以使用 spancat 获得每个实体的置信度分数。但是我对使这项工作有些困惑。据我了解,我们必须使用 spancat 组件来训练管道。所以在训练时,在配置文件中有一个段,
[nlp]
lang = "en"
pipeline = ["tok2vec","ner"]
batch_size = 1000
我们是否必须将其更改为
[nlp]
lang = "en"
pipeline = ["tok2vec","ner","spancat"]
batch_size = 1000
让 spancat 工作。
那么经过训练,在从未知文本中预测实体的同时,我们是否必须使用
doc = nlp(data_to_be_predicted)
spans = doc.spans["spancat"] # SpanGroup
print(spans.attrs["scores"]) # list of numbers, span length as SpanGroup
获取置信度分数。
我正在使用 spacy 3.1.3。我相信根据文档,这个功能现在已经推出了。
【问题讨论】:
-
您似乎在几天前使用其他帐户提出了同样的问题? stackoverflow.com/questions/69671851/…
标签: python nlp spacy named-entity-recognition