【发布时间】:2022-01-22 10:25:57
【问题描述】:
我想使用基因组数据预测生存。我的标签(y)存在于两列中,“vital_status”和“time”。第一个是二进制的,第二个是连续的。我想使用 10 折交叉验证,但数据分布需要在每个列中正确fold。我知道我应该为此使用 stratifiedkfold,但是如何转换两列以便我可以使用它?
我在某个可以使用 to_categorical 的地方阅读,但这给了我一个 3d 数组。我不认为这是正确的..
from tensorflow.keras.utils import to_categorical
y_train_categorical = to_categorical(y)
skf = StratifiedKFold(n_splits=10)
for fold, (traincv, testcv) in enumerate(skf.split(x, y)):
还有其他人知道该怎么做吗? 谢谢
【问题讨论】:
标签: python-3.x scikit-learn tf.keras k-fold