如何构建（处理）这样的模型训练表？答案

【问题标题】：How do I structure(process) such a table for model training?如何构建（处理）这样的模型训练表？
【发布时间】：2019-05-25 19:10:29
【问题描述】：

数据集按行包含不同的项目，列包含记录的样本，其中一半是正类，另一半是负类。现在，我想创建和训练一个模型，将看不见的项目样本分类为正面或负面。

问题：我该如何处理（使用）这样的数据集？

并且，对于模型的任何建议，因为行数超过 50k，列数为 12 正数和 12 负数。

现在，根据这些数据，将创建一个模型，该模型可以根据提供的值将 x（或 y 或 z）分类为正数或负数。例如，如果为 x 提供的值为 12，则模型将 x 评估为正数。

【问题讨论】：

【解决方案1】：

只要我理解你的问题，你就有一个变量作为输入，比如说 x。这个变量可以保存一些值（正例）但不能保存其他值（负例）。现在，给定 x 的一个新值，您想知道这个值对于 x 是否合理。

您谈到了培训。我猜你正在考虑神经网络。在这种情况下，只需从表的第一行（x 行）创建一个数据集，如下所示：

D = [
 [10, 1],
 [11, 1],
 [13, 1],
 [14, 1],
 [16, 0],
 [15, 0],
 [14, 0],
 [16, 0],
]

第一个元素是你的价值。第二个元素告诉您的网络是否是一个合理的值 (1) 或不是 (0)。记得打乱你的数据集，以避免你为网络提供的样本高度相关（理论上，它们应该是 iid）。

您的网络将只有 1 个神经元作为输入，而输出 1 个神经元。最后一层将是一个 sigmoid 激活函数（因为它被限制在 0 和 1 之间）。使用二元交叉熵损失。

鉴于评论，这是更新的答案。

数据集必须如下：

D = [
 [10, 0.67, 25, ..., 1],
 [16, 0.15, 20.5, ..., 0],
 [...]
]

该网络与上述网络相同，但现在输入的维度等于行数。

【讨论】：