K-fold CV 的变体，其中 size(test_set) > N/K

【问题标题】：Variant of K-fold CV where size(test_set) > N/KK-fold CV 的变体，其中 size(test_set) > N/K
【发布时间】：2019-03-02 10:52:10
【问题描述】：

我有一个二元分类问题，标签 0 和 1（少数）存在巨大的不平衡。因为测试集标签为 1 的行太少，所以我将 train-test 设置为至少 70-30 或 60-40，所以仍然有显着的观察结果。由于我没有在准确度上测量太多（由于类不平衡），而是更多地在精确召回上，这尤其重要，因为真阳性的一些差异是显着的。

在我选择 K = 5 并将拆分设置为 60-40 的 Python / sklearn 中是否存在 KFold（或交叉验证方法）的变体？如下图所示：

【问题讨论】：

我不知道为什么我在这个问题上被否决了。不管你是谁，请你至少解释一下。
不确定是谁降级了，我发现这是一个合法的查询。我已经尝试在下面为您回答
如果我的回复有帮助，请告诉我

标签： python machine-learning scikit-learn cross-validation

【解决方案1】：

您需要分层抽样来处理不平衡。这是 sklearn 为您执行此操作的 URL：组合 Kfold 和 Stratified sampling/split

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html

【讨论】：

猜你喜欢

2019-11-09
2019-01-23
2019-02-18
2011-10-01
1970-01-01
2014-05-19
2019-11-09
1970-01-01
2013-02-21

相关资源

下载 2022-12-20
下载 2023-02-06
下载 2023-03-03
下载 2023-03-07
下载 2023-01-02

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode