【发布时间】:2026-02-06 10:20:11
【问题描述】:
以下代码是 SpaCy 命名实体识别 (NER) 的示例训练循环。
for itn in range(100):
random.shuffle(train_data)
for raw_text, entity_offsets in train_data:
doc = nlp.make_doc(raw_text)
gold = GoldParse(doc, entities=entity_offsets)
nlp.update([doc], [gold], drop=0.5, sgd=optimizer)
nlp.to_disk("/model")
drop 和spacy 一样是辍学率。有人能详细解释一下同一个意思吗?
【问题讨论】:
-
随机删除特征/内部表示以避免过度拟合。这使得模型更难记住训练数据。
-
这是否意味着,如果有 100 条记录需要训练,并且我给 drop 为 0.5,那么在第一个 epoch 中只有 50 条记录将用于训练?
标签: python nlp spacy named-entity-recognition