【发布时间】:2020-06-08 18:00:40
【问题描述】:
我得到了这个由图像及其标签组成的数据集。我使用我编写的自定义函数加载它们。我偶然发现的问题是我不知道如何在训练和测试之间适当地划分它们。我一直在查看 TensorFlow 文档,发现了一些内容,但它们的解释性不够。
def create_training_data():
_images = []
_labels = []
for category in CATEGORIES:
class_num = CATEGORIES.index(category)
new_path = os.path.join(DATASET, category)
for img in os.listdir(new_path):
img_array = cv2.imread(os.path.join(new_path, img), cv2.IMREAD_GRAYSCALE)
_images.append(img_array)
_labels.append(class_num)
return (_images, _labels)
这就是我现在加载数据的方式
(training_images, training_labels) = create_training_data()
training_images = np.array(training_images)
training_images = training_images / 255.0
我怎么可能在测试大小为 0.3 的情况下将其拆分为训练和测试?
【问题讨论】:
-
这能回答你的问题吗? Stratified Train/Test-split in scikit-learn
标签: python tensorflow training-data