【问题标题】:How do I structure(process) such a table for model training?如何构建(处理)这样的模型训练表?
【发布时间】:2019-05-25 19:10:29
【问题描述】:

数据集按行包含不同的项目,列包含记录的样本,其中一半是正类,另一半是负类。现在,我想创建和训练一个模型,将看不见的项目样本分类为正面或负面。

问题:我该如何处理(使用)这样的数据集?

并且,对于模型的任何建议,因为行数超过 50k,列数为 12 正数和 12 负数。

现在,根据这些数据,将创建一个模型,该模型可以根据提供的值将 x(或 y 或 z)分类为正数或负数。例如,如果为 x 提供的值为 12,则模型将 x 评估为正数。

【问题讨论】:

    标签: python dataframe machine-learning artificial-intelligence


    【解决方案1】:

    只要我理解你的问题,你就有一个变量作为输入,比如说 x。这个变量可以保存一些值(正例)但不能保存其他值(负例)。现在,给定 x 的一个新值,您想知道这个值对于 x 是否合理。

    您谈到了培训。我猜你正在考虑神经网络。在这种情况下,只需从表的第一行(x 行)创建一个数据集,如下所示:

    D = [
     [10, 1],
     [11, 1],
     [13, 1],
     [14, 1],
     [16, 0],
     [15, 0],
     [14, 0],
     [16, 0],
    ]
    

    第一个元素是你的价值。第二个元素告诉您的网络是否是一个合理的值 (1) 或不是 (0)。记得打乱你的数据集,以避免你为网络提供的样本高度相关(理论上,它们应该是 iid)。

    您的网络将只有 1 个神经元作为输入,而输出 1 个神经元。最后一层将是一个 sigmoid 激活函数(因为它被限制在 0 和 1 之间)。使用二元交叉熵损失。


    鉴于评论,这是更新的答案。

    数据集必须如下:

    D = [
     [10, 0.67, 25, ..., 1],
     [16, 0.15, 20.5, ..., 0],
     [...]
    ]
    

    该网络与上述网络相同,但现在输入的维度等于行数。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-12-19
      • 2020-10-01
      • 2016-04-28
      • 2018-04-06
      • 1970-01-01
      • 2017-08-19
      • 1970-01-01
      相关资源
      最近更新 更多