如何创建像 minst_digits 数据集这样的字符数据集答案

【问题标题】：how create char dataset like minst_digits dataset如何创建像 minst_digits 数据集这样的字符数据集
【发布时间】：2017-08-12 23:27:19
【问题描述】：

我有 62000 个字体图像（0-9、A-Z 和 a-z 图像）数据集，其中单个字符有 1000 个图像。我创建了 62000 行图像标准化像素值和标签的 csv 文件。我不知道在训练、验证和测试数据集中提取这个 csv 文件，以便获得更好的准确性。 enter image description here

【问题讨论】：

处理你的格式，也许你想使用keras.io/datasets或scikit-learn.org/stable/tutorial/basic/…？许多机器学习平台都提供了一些易于加载的 mnist。
这些数据集仅用于数字。我想在字符数据集上进行训练。我有数据集，但我很困惑如何让训练、验证和测试更简单。我有 CSV 文件的数据集，其中有 1000 张“A”图像，1000 张“B”图像等等。

标签： machine-learning neural-network computer-vision conv-neural-network pattern-recognition

【解决方案1】：

您可以使用 SciKit-Learn 的train_test_split。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

X, y = your.data, your.target #input your own data here
train, test = train_test_split(X, test_size = 0.2, random_state=0)

另外，阅读这个 sklearn tutorial

【讨论】：