【发布时间】:2020-06-23 11:04:32
【问题描述】:
我正在学习 sklearn,但我不太了解其中的区别以及为什么将 4 个输出与函数 train_test_split 一起使用。
在文档中,我找到了一些示例,但这还不足以结束我的疑惑。
代码是使用 x_train 预测 x_test 还是使用 x_train 预测 y_test?
训练和测试有什么区别?我是否使用 train 来预测测试或类似的东西?
我对此感到非常困惑。我将在文档中提供以下示例。
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],
[2, 3],
[4, 5],
[6, 7],
[8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]
>>> X_train, X_test, y_train, y_test = train_test_split(
... X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],
[0, 1],
[6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],
[8, 9]])
>>> y_test
[1, 4]
>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]
【问题讨论】:
-
训练和测试之间的区别是您应该在基本的机器学习课程或书籍中学到的东西,这是您在使用任何 ML 库之前必须了解的概念
标签: python machine-learning scikit-learn sklearn-pandas supervised-learning