具有 6 个特征的人工神经网络训练答案

【问题标题】：Artificial Neural Network training with 6 features具有 6 个特征的人工神经网络训练
【发布时间】：2014-03-26 03:55:00
【问题描述】：

我想问以下问题：我正在尝试用反向传播训练人工神经网络。我有一个前馈神经网络，有 6 个输入层、7 个隐藏层和 1 个输出层。我将给这个神经网络一个由 6 个特征组成的特征向量并对其进行训练，我的学习率为 0.7，我的动量为 0.9。我想根据我在 2 个类中的 6 个特征进行分类。问题是这个网络的整体误差没有改变......我尝试了不同的学习率和动量值，但问题仍然相同......我不明白它为什么这样做。在尝试学习 ann 来学习解决 xor 问题时，我尝试了相同的代码（我的意思是主类），并且它在那里完美地工作。有谁知道为什么会这样？谢谢你的时间:)

FeedforwardNetwork network = new FeedforwardNetwork();
Train train;

 network.AddLayer(new FeedforwardLayer(6));
        network.AddLayer(new FeedforwardLayer(7));
        network.AddLayer(new FeedforwardLayer(1));

        train = new Backpropagation(network, Input_vector, Ideal_vector, 0.7, 0.8);

        int epoch = 1;
        textBox7.Text = " It has begun\r\n";
        do
        {
            train.Iteration();
            textBox7.Text += "\r\n Epoch " + epoch + " Error " + train.Error + " \r\n ";

            epoch++;
        }
        while ((epoch < 500) && (train.Error > 0.001));

        network = train.Network;

        textBox7.Text += "Neural Network Results";

        for (int i = 0; i < Ideal_vector.Length; i++)
        {
            double[] actual = network.ComputeOutputs(Input_vector[i]);

            textBox7.Text += "\r\n" + Input_vector[i][0] + "," + Input_vector[i][1] +     "," +
                Input_vector[i][2] + "," + Input_vector[i][3] + Input_vector[i][4] +
                Input_vector[i][5] + " actual= " +
                actual[0] + ", ideal " + Ideal_vector[i][0] + " \r\n";
        }

【问题讨论】：

标签： c# machine-learning artificial-intelligence neural-network

【解决方案1】：

在 MLP 中，损失函数在开始时没有演变通常是因为网络无法推断出任何规则来拟合您的训练数据（反向传播的梯度找不到任何有意义的局部最小值）。这可能是由于您尝试解决的问题的数据不足或架构受限所致。

增加层数和/或它们的大小应该会改变这一点。尽管如果您的架构过于复杂，您将容易过度拟合。您必须找到适合您问题的平衡点。

并且不要犹豫，一开始就从低学习率开始，设置得太高会导致你的梯度“反弹”而不收敛。

【讨论】：

【解决方案2】：

您的主要功能很好。但是，您的训练向量或反向传播代码都不是（假设您的网络足够大，可以学习这一点）。所以这将是一堆问题而不是答案，但你可能会得到正确的想法：

您的训练向量包含多少样本？
这些样本是大致分类了一半还是有偏差？
是否存在分类不明确的相同训练样本？
如何计算误差？ Abs/Sqr 平均值？
您会随机化初始网络权重吗？
训练之前的初始错误是什么？
第一次迭代中的错误会改变吗？
你能把代码贴在 pastebin 上吗？

【讨论】：

训练样本有441个，大致相等
不，没有相同的训练样本（当然，一张图片的形态可能与另一张相似——我有不同类型的人）；错误是：理想 - 实际结果，是的，错误在第一次迭代中最小化，但后来增长。但是我想我观察到了一些东西
问题出在学习率上……我习惯于选择一个介于 0.1 和 0.9 之间的最大值。然而，在这种情况下，当我从这个区间选择费率时，问题并没有收敛。我将利率进一步降低到 0.002，一切正常。

【解决方案3】：

您使用的是批量学习还是在线学习？如果答案是批处理，那么可能你的学习率太高了。您可以尝试根据训练模式的数量对其进行缩放。正如@Marcom 所说，如果你的神经元太少，你的网络容量太低，这有点难以解释，但基本上你没有使用神经元的非线性区域，你的网络有偏差。

查看here 以获得更好的解释。

先尝试大量的神经元，然后只要误差继续下降，就可以减少数量。

【讨论】：

您实际上是对的...我已将学习率更改为 0.001，您知道它实际上开始对某些东西进行分类。一开始我没有考虑你的答案，因为我的学习率从来没有低于 0.1。我会做一些实验，然后对问题发表最终结论
除以训练模式的数量在批量学习中很有用，因为您可以获得权重更新的平均梯度。否则你会得到一个很大的梯度（每个训练模式的梯度总和），这有时会“破坏”你所有的权重配置。

【解决方案4】：

尝试添加一个额外的隐藏层，并尝试增加隐藏节点的数量。我无法给你一个技术上的解释，但如果你的节点太少，则 ann 可能无法收敛。

【讨论】：

首先感谢您的回答，我会尝试添加更多隐藏层，但我担心它会过度拟合我会及时通知您我得到什么
这是我得到的输出：它已开始epoch 1错误0,678317780941479 epoch 3错误0,678466992649834699264523 epoch 4错误0,678466992798294699279829 epoch 4错误0,67846699279829 epoch 5错误0,67846699279807 epoch 5错误0,678466992798807时代67846699279881 epoch 10误差0,67846699279881 epoch 10误差0,67846699279881秒钟0,67846699279881/686699279888> epoch1 11误差0,67846699279881秒钟4 eper 0,67846699279888 epoch1 11误差0,67846699279881 epoch 10误差0,67846699279881 epoch1 11误差将持续整个培训课程