【发布时间】:2021-03-19 17:09:55
【问题描述】:
鉴于我有一个数据框 X,我想将其拆分为 N 个数据框,以便每个集合的分布大致相同(即分层)
最好的方法是什么?
【问题讨论】:
-
@flaviobossolan 在kaggle.com/flaviobossolan/stratified-sampling-python 中提供了一篇关于python 分层采样的好帖子
标签: pandas scikit-learn
鉴于我有一个数据框 X,我想将其拆分为 N 个数据框,以便每个集合的分布大致相同(即分层)
最好的方法是什么?
【问题讨论】:
标签: pandas scikit-learn
这可以使用scikit-learn 中的StratifiedKFold 来实现,使用X 中的一列作为分层依据。
【讨论】: