不同的随机权重初始化导致不同的性能答案

【问题标题】：Different random weight initialization leading to different performances不同的随机权重初始化导致不同的性能
【发布时间】：2018-11-13 21:50:11
【问题描述】：

我正在大脑的 EM 数据集上训练 3D U-Net。目标是分割其中的神经元。在实验过程中，我注意到，网络的不同随机初始化会导致不同的性能。我根据平均交集而不是联合来评估性能，我观察到差异高达 5%。

我使用均匀分布的 xavier 初始化，并使用 1e-4 的恒定学习率。

编辑：我在问如何避免这样的行为？

【问题讨论】：

抱歉，我不明白这是什么问题。如果你问是否为不同的初始化获得不同的性能，我会说是的。您最终会处于不同的局部最小值。
@Roberto 我编辑了这个问题。

标签： machine-learning neural-network computer-vision conv-neural-network convergence

【解决方案1】：

正如罗伯托所说，不同的随机初始化总是会导致不同的结果权重。这很明显，因为初始状态限制了可能的系统轨迹。

如果您阅读the paper introducing Xavier init，您会发现众所周知，随机初始化对最终的性能有很大的初始化影响（有一篇论文表明，使用随机初始化的数百次训练运行都以不同的局部最小值，但我现在找不到）。这正是我们使用 Xavier init 等启发式算法的原因：与其他形式的随机初始化相比，它们往往会导致更好的局部最小值。

通常，一个执行多次训练运行（例如 10 次）并采用最佳架构，在文章中，有时也会报告平均值。

【讨论】：