多源训练数据的监督学习答案

【问题标题】：Supervised learning with multiple sources of training data多源训练数据的监督学习
【发布时间】：2011-11-09 12:16:05
【问题描述】：

我不确定它是否是机器学习问题的正确交换网站，但我之前确实看到过 ML 问题，所以我试试运气（也发布在 http://math.stackexchange.com）。

我有来自不同来源的训练实例，因此构建一个模型效果不佳。在这种情况下是否有已知的方法可以使用？

例子解释得最好。假设我想根据不同人群构建的训练数据对癌症/非癌症进行分类。来自一个群体的训练实例可能具有与其他群体完全不同的正/负样本分布。现在，我可以为每个群体建立一个单独的模型，但问题是对于测试我不知道测试实例来自哪个群体。

*所有训练/测试实例都具有完全相同的特征集，无论它们来自哪个人群。

【问题讨论】：

有什么理由分开考虑你的不同人群（除了明显的分层效应）？
可能是某种分层或混合模型，其中实例来自不同的人群，并且可以具有癌症/非癌症标签。然后，您将整合总体变量以估计标签。
@chl 我不确定我是否理解。将种群分开的主要原因是它们之间正/负样本的分布不同。一个群体可能有 80% 的阳性标签，而其他群体可能有 30%。特征的规模在人群中几乎相同，因此很难使用一个模型来研究潜在的现象。
@highBandWidth 非常感谢。我现在正在研究这样的模型。
@Raviv 我的问题只是关于您的研究目的：您是否想建立针对特定人群的预测模型或对您的疾病进行分类，而不管新患者来自哪个人群。无论如何，请在此处注册您的帐户，以便我们可以请求迁移（从 SO->CV 先验）。

标签： artificial-intelligence machine-learning

【解决方案1】：

我怀疑这可能不会比仅将所有数据放入在整个数据集上训练的单个分类器中更好。从高层次来看，数据集的特征应该告诉你标签，而不是输入分布。不过你可以试试。

为每个试图预测标签的数据集训练一个单独的分类器。然后在组合分布上训练一个分类器，它试图预测数据点来自哪个数据集。然后，当您要预测测试实例的标签时，请使用每个子分类器，并为其赋予与高级数据集分类器分配的权重成比例的权重。

这感觉很像混合高斯的估计步骤，您通过从 K 个中心的估计值分配的概率加权平均值来分配生成数据点的概率。

【讨论】：

我正在考虑类似的事情，但你给了我一些很棒的想法。非常感谢！

【解决方案2】：

对此的经典方法是通过分层建模（如果您可以有层次结构）、固定效应模型（或随机效应，取决于假设和环境）、各种其他组或结构模型。

您可以在机器学习环境中执行相同的操作，方法是将分布描述为源的函数，包括样本总体和响应变量。因此，来源本质上是一种可能与所有（或大部分）其他特征交互的特征。

更大的问题是您未来的（测试）数据是来自这些抽样人群中的一个，还是来自另一个人群。

更新 1：如果您想专注于机器学习而不是统计数据，另一个需要研究的相关概念是迁移学习。它并不是非常复杂，尽管它被炒作了。基本思想是您在辅助数据分布中找到可以映射到目标数据源的预测器/响应框架中的共同属性。在另一种意义上，您正在寻找一种方法来排除依赖于来源的变化。这些是非常高级的描述，但应该有助于您的阅读计划。

【讨论】：

很有趣，我会读一读。测试数据将具有与抽样人群之一相似的特征。非常感谢！

【解决方案3】：

如果您只对预测感兴趣（我认为，因为您在谈论监督学习），那么混合数据集并训练联合模型并没有错。

如果您使用的是支持向量机、神经网络或逻辑回归等模型，添加另一个特征可能会有所帮助，以指示样本属于哪个群体。一旦你得到一个未见过的样本，将此功能设置为中性值（例如，使用 -1 表示 pop 1，+1 表示 pop2，0 表示未见过的样本）。

然后，您可以非常轻松地检查这两个群体的差异。

【讨论】：

【解决方案4】：

一个天真的想法是：如果您的训练/测试集具有相同的特征，您可以为每个群体构建一个单独的分类器。您可以将您的测试集提供给集成，看看与测试实例的目标群体匹配的分类器是否表现更好，而所有其他分类器则更差（或者您可以学习某种差异）。

你能建立一个单独的分类器来预测一个实例属于哪个群体吗？如果是，您可以将其用作您的预分类并执行后续工作。

【讨论】：