是否可以在更少的课程上重新训练一个训练有素的模型？答案

【问题标题】：Is it possible to retrain a trained model on fewer classes?是否可以在更少的课程上重新训练一个训练有素的模型？
【发布时间】：2021-09-14 09:12:26
【问题描述】：

我正在研究图像检测，我正在检测图像并将其分类为 14 种不同的胸部疾病之一（多标签分类问题）。该模型在NIH dataset 上进行训练，我得到80% AUC。现在我想通过在第二个数据集上进行训练来改进模型。但主要问题是两个数据集的类都不匹配。

第二个数据集包含 10 个类，与我用来训练模型的第一个数据集重叠。

问题：

型号和代码基于fast.ai和PyTorch。

【问题讨论】：

如果你想为新的数据集训练一个新的分类器，那么你可以尝试保持特征提取器冻结并训练一个 10 类分类器。如果您想要两个数据集的单个分类器，则使用两个数据集交替训练可能会更好。因为仅在新数据集上进行训练可能会导致其他类的信息丢失。
您想使用包含 10 个类别的数据集作为额外的训练数据吗？一个数据集的 10 个类是否也是另一个数据集的 14 个类的一部分？您绝对可以制作一个在一个数据集上训练的管道，重新初始化分类器并继续在另一个数据集上进行训练。或交替，如建议的那样。它是否有所改进取决于我对数据集的问题。
谢谢，@akshayk07 我的项目分为两个模块，有两个不同的模型： 1- 分类模块 2- 检测模块我知道我会先训练分类模型，然后加载这些权重以继续训练检测模块。只是我很困惑，如果我减少其他课程 AUC 会影响的课程数量？我不能为每个类训练一个模型，因为这个问题是一个多标签类和检测问题，所以我正在考虑准备一个组合数据集。值得吗？
@Kroshtan 是的，我想在新数据集上重新训练经过训练的模型以提高 AUC。不，它不是 14 类数据集的一部分，但它是不同的数据集数据集名称：NIH 和 VinBig。但是有 10 个类是相似的，所以我想在那个数据集上进行训练。

【解决方案1】：

基于 cmets 中的讨论：

是的，如果类重叠（使用来自不同数据集的不同数据点），您可以使用两个数据集训练相同的分类器层。这意味着在其中一个数据集中，14 个类中有 4 个根本没有经过训练。这意味着您基本上只为 14 个类别中的 10 个类别添加更多样本，从而使现有的 14 个类别数据集更加不平衡。
对 14 个类中的 10 个进行训练将对未额外训练的 4 个类引入遗忘效应。您可以通过使用建议的替代训练或将所有数据组合成一个大数据集来抵消这一点，但这并不能解决新组合数据集可能比原始 14 类数据集更不平衡的事实。除非不在 10 类数据集中的 4 个类由于某种原因在 14 类数据集中被过度表示，但我认为你不会那么幸运。
因为您的数据集和模型都将重点放在 14 个类别中的 10 个，因此您的准确度可能会提高。然而，这意味着不重叠的 4 个类被简单地忽略，以提高其余 10 个类的准确性。在纸面上，这些数字可能看起来更好，但在实践中，您的模型对于 14 类分类任务的用处不大。

【讨论】：

感谢您的详细建议。回复答案：1-但这里的数据并没有那么低，它会产生不平衡问题。就像数据集 1：112120 images 和数据集 2：14k+ images。 2-遗忘效应是什么意思？就像它不会识别那些在第二次训练中没有再次训练的课程？ 3- 在实践中，如果我们删除那些不匹配的类，然后在 10 个类上训练该模型并在第二个数据集上重新训练会怎样？
1.这肯定会减少不平衡，但如果您只添加相对少量的图像，也可能不会添加太多。 2. 我的意思是，如果你训练一个只有 10 个类的新任务，任何被训练来检测其他 4 个类的连接都会减弱，并且这些类的准确性会下降（被遗忘）。 3. 然后你有一个更大的数据集来处理一个 10 类问题，这很好，但你只能检测 10 个类，这不是很好。
@EngrAli 如果回答足够，请将其标记为已接受，如果没有，请提供其他需要回答的问题，然后才能接受答案。
同意第 1 点和第 2 点。我正在与我的主管审查我的想法，没关系，我知道它现在只能分类和检测 10 个类。如果其他专家也给出了答案，我将接受一次答案。感谢您的快速回复。