CNN：数据标准化？答案

【问题标题】：CNN : Data standardization?CNN：数据标准化？
【发布时间】：2017-11-29 19:54:07
【问题描述】：

我正在研究一个神经网络来预测一个事件是否是中微子。每个输入 x 是一个矩阵：(3, 5484)，三个不同的度量，5484 个传感器。

所以我应该标准化输入以使网络正常工作，但我对此有疑问，让我们解释一下：

我的数据集是：(x_1,....,x_N)。让我们只关注一个特征，并认为 x 是一个大小为 (5484) 的向量。然后每个 x 有一个平均值：mean_x，和一个标准：std_x 但是归一化输入的重点是在不丢失信息的情况下重新缩放它（全局归一化，每个输入的归一化因子相同）对吗？

所以，我不确定我应该如何重新调整它。我应该将 (x_1, .., x_N) 展平为一维向量： (x_1, ..., x_5484*N) 并计算其均值和标准差吗？

或者我应该独立处理 5484 个输入通道中的每一个？

我有点迷路了。

【问题讨论】：

【解决方案1】：

如果 3 个传感器彼此独立，则您拥有 5484*3 个特征。 对于每一项特征，您都应该扁平化和标准化数据。

例如，您的全部数据集可能是 m * (5484*3) 的矩阵，其中 m 是样本数。矩阵中的每一行都是一个样本。

【讨论】：

【解决方案2】：

这取决于您如何处理传感器数据。

如果您认为 5484 个传感器代表不同的特征，则不应将它们展平，而应将 3 * 5484 视为图像通道。否则，如果传感器相似，则应将它们展平。

但直觉上，我认为第一种方法更好。

【讨论】：

谢谢你们，确实传感器应该代表或多或少相同的东西，但我分别处理每个 3*5484 通道。但是，数据非常稀疏（例如，对于一个通道，超过 100k 个示例，可能 5-10k 是非零的），并且非常多样化（与平均值相比差异很大），所以我担心这种预处理会杀死很多数据零。有什么意见吗？
预处理只是缩放数据并保持分布。试试看吧。