【发布时间】:2011-11-09 12:16:05
【问题描述】:
我不确定它是否是机器学习问题的正确交换网站,但我之前确实看到过 ML 问题,所以我试试运气(也发布在 http://math.stackexchange.com)。
我有来自不同来源的训练实例,因此构建一个模型效果不佳。在这种情况下是否有已知的方法可以使用?
例子解释得最好。假设我想根据不同人群构建的训练数据对癌症/非癌症进行分类。来自一个群体的训练实例可能具有与其他群体完全不同的正/负样本分布。现在,我可以为每个群体建立一个单独的模型,但问题是对于测试我不知道测试实例来自哪个群体。
*所有训练/测试实例都具有完全相同的特征集,无论它们来自哪个人群。
【问题讨论】:
-
有什么理由分开考虑你的不同人群(除了明显的分层效应)?
-
可能是某种分层或混合模型,其中实例来自不同的人群,并且可以具有癌症/非癌症标签。然后,您将整合总体变量以估计标签。
-
@chl 我不确定我是否理解。将种群分开的主要原因是它们之间正/负样本的分布不同。一个群体可能有 80% 的阳性标签,而其他群体可能有 30%。特征的规模在人群中几乎相同,因此很难使用一个模型来研究潜在的现象。
-
@highBandWidth 非常感谢。我现在正在研究这样的模型。
-
@Raviv 我的问题只是关于您的研究目的:您是否想建立针对特定人群的预测模型或对您的疾病进行分类,而不管新患者来自哪个人群。无论如何,请在此处注册您的帐户,以便我们可以请求迁移(从 SO->CV 先验)。
标签: artificial-intelligence machine-learning