【发布时间】:2020-03-23 10:38:33
【问题描述】:
有人提出了一种将数据集分成三组的解决方案。我想知道这种情况下的标签在哪里。或者如何设置标签。
train, validate, test = np.split(df.sample(frac=1), [int(.6*len(df)), int(.8*len(df))])
【问题讨论】:
-
标签是什么意思?您将返回 3 个对象,分别是
train、validate和test,第一个覆盖了df的 60%,第二个 (validate) 从 60% 到 80%,最后一个 (test) 剩下的最后 20%。标签是数据集的一部分,在拆分时不需要区分它们。 -
@IvanLibedinsky 我的标签是指这段代码中的 y_train 和 y_test。 { X_train, X_test, y_train, y_test = train_test_split(df, y, test_size=0.2) }
-
@Curious 这些不只是变量名吗?请澄清您的问题,并小心。
-
@AlexanderCécile。我相信这个问题很清楚。下面给出答案。我不明白我应该注意什么。
标签: python pandas numpy machine-learning