从 spacy 模型中删除训练数据答案

【问题标题】：Remove training data from spacy model从 spacy 模型中删除训练数据
【发布时间】：2020-04-01 20:13:55
【问题描述】：

我已经训练了一个 spacy textcat 模型，但后来我意识到有一些不正确的训练数据：来自一个类别的数据恰好被标记为另一个类别。我的问题是：是否可以在不重新训练的情况下从模型中删除这些训练示例？类似nlp.update() 但反过来？非常感谢任何帮助！

【问题讨论】：

【解决方案1】：

您的意思是还原特定案例？据我所知，目前在 spaCy 中这是不可能的。

我建议要么使用更正的注释从头开始重新训练，要么使用更新的注释继续训练。如果您继续训练，请确保您继续为您的模型提供一个代表集，这样它就不会“忘记”它之前已经正确预测的案例。

【讨论】：

知道了！谢谢！还有一个问题：representative set 下的意思是什么？我之前遇到过这个词，但没明白它的意思
欢迎您！我的意思是你需要确保模型不断学习不同标签的实例。想象一下，你开始用 PEOPLE 和 ORG 训练它，但是在 2000 个案例之后，你只继续用 PEOPLE 示例进行训练，而不是在一段时间后它会“忘记”如何做 ORG。这被称为灾难性遗忘问题，另见explosion.ai/blog/pseudo-rehearsal-catastrophic-forgetting