如何将数据拆分为训练和测试答案

【问题标题】：how to split data into training and testing如何将数据拆分为训练和测试
【发布时间】：2020-06-08 18:00:40
【问题描述】：

我得到了这个由图像及其标签组成的数据集。我使用我编写的自定义函数加载它们。我偶然发现的问题是我不知道如何在训练和测试之间适当地划分它们。我一直在查看 TensorFlow 文档，发现了一些内容，但它们的解释性不够。

def create_training_data():
    _images = []
    _labels = []
    for category in CATEGORIES:
        class_num = CATEGORIES.index(category)
        new_path = os.path.join(DATASET, category)
        for img in os.listdir(new_path):
            img_array = cv2.imread(os.path.join(new_path, img), cv2.IMREAD_GRAYSCALE)
            _images.append(img_array)
            _labels.append(class_num)
    return (_images, _labels)

这就是我现在加载数据的方式

(training_images, training_labels) = create_training_data()
training_images = np.array(training_images)
training_images = training_images / 255.0

我怎么可能在测试大小为 0.3 的情况下将其拆分为训练和测试？

【问题讨论】：

这能回答你的问题吗？ Stratified Train/Test-split in scikit-learn

标签： python tensorflow training-data

【解决方案1】：

尝试使用sklearn.model_selection.train_test_split，它可以拆分您的列表数据集

X_train, X_test, y_train, y_test = train_test_split(
training_images, training_labels, test_size=0.3, random_state=42)

【讨论】：