【问题标题】:need help for stratifiedkfold with multilabels需要多标签分层kfold的帮助
【发布时间】:2022-01-22 10:25:57
【问题描述】:

我想使用基因组数据预测生存。我的标签(y)存在于两列中,“vital_status”和“time”。第一个是二进制的,第二个是连续的。我想使用 10 折交叉验证,但数据分布需要在每个列中正确fold。我知道我应该为此使用 stratifiedkfold,但是如何转换两列以便我可以使用它?

我在某个可以使用 to_categorical 的地方阅读,但这给了我一个 3d 数组。我不认为这是正确的..

from tensorflow.keras.utils import to_categorical
y_train_categorical = to_categorical(y)

skf = StratifiedKFold(n_splits=10)
for fold, (traincv, testcv) in enumerate(skf.split(x, y)):

还有其他人知道该怎么做吗? 谢谢

【问题讨论】:

    标签: python-3.x scikit-learn tf.keras k-fold


    【解决方案1】:

    我建议将时间变量拆分为小时/天/周/月(取决于哪个更重要)列。这样,您的 kfold 分层将最有意义,并且您可能会在不同的折叠中获得最稳定的结果。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-09-09
      • 1970-01-01
      • 2012-05-23
      • 1970-01-01
      相关资源
      最近更新 更多