【问题标题】:Variant of K-fold CV where size(test_set) > N/KK-fold CV 的变体,其中 size(test_set) > N/K
【发布时间】:2019-03-02 10:52:10
【问题描述】:

我有一个二元分类问题,标签 0 和 1(少数)存在巨大的不平衡。因为测试集标签为 1 的行太少,所以我将 train-test 设置为至少 70-30 或 60-40,所以仍然有显着的观察结果。由于我没有在准确度上测量太多(由于类不平衡),而是更多地在精确召回上,这尤其重要,因为真阳性的一些差异是显着的。

在我选择 K = 5 并将拆分设置为 60-40 的 Python / sklearn 中是否存在 KFold(或交叉验证方法)的变体?如下图所示:

【问题讨论】:

  • 我不知道为什么我在这个问题上被否决了。不管你是谁,请你至少解释一下。
  • 不确定是谁降级了,我发现这是一个合法的查询。我已经尝试在下面为您回答
  • 如果我的回复有帮助,请告诉我

标签: python machine-learning scikit-learn cross-validation


【解决方案1】:

您需要分层抽样来处理不平衡。 这是 sklearn 为您执行此操作的 URL:组合 Kfold 和 Stratified sampling/split

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html

【讨论】:

    猜你喜欢
    • 2019-11-09
    • 2019-01-23
    • 2019-02-18
    • 2011-10-01
    • 1970-01-01
    • 2014-05-19
    • 2019-11-09
    • 1970-01-01
    • 2013-02-21
    相关资源
    最近更新 更多