【问题标题】:CNN : Data standardization?CNN:数据标准化?
【发布时间】:2017-11-29 19:54:07
【问题描述】:

我正在研究一个神经网络来预测一个事件是否是中微子。 每个输入 x 是一个矩阵:(3, 5484),三个不同的度量,5484 个传感器。

所以我应该标准化输入以使网络正常工作,但我对此有疑问,让我们解释一下:

我的数据集是:(x_1,....,x_N)。让我们只关注一个特征,并认为 x 是一个大小为 (5484) 的向量。 然后每个 x 有一个平均值:mean_x,和一个标准:std_x 但是归一化输入的重点是在不丢失信息的情况下重新缩放它(全局归一化,每个输入的归一化因子相同)对吗?

所以,我不确定我应该如何重新调整它。我应该将 (x_1, .., x_N) 展平为一维向量: (x_1, ..., x_5484*N) 并计算其均值和标准差吗?

或者我应该独立处理 5484 个输入通道中的每一个?

我有点迷路了。

【问题讨论】:

    标签: arrays matrix neural-network standardized


    【解决方案1】:

    如果 3 个传感器彼此独立,则您拥有 5484*3 个特征。 对于每一项特征,您都应该扁平化和标准化数据。

    例如,您的全部数据集可能是 m * (5484*3) 的矩阵,其中 m 是样本数。矩阵中的每一行都是一个样本。

    你可以使用 scipy http://scikit-learn.org/stable/modules/preprocessing.html

    【讨论】:

      【解决方案2】:

      这取决于您如何处理传感器数据。

      如果您认为 5484 个传感器代表不同的特征,则不应将它们展平,而应将 3 * 5484 视为图像通道。否则,如果传感器相似,则应将它们展平。

      但直觉上,我认为第一种方法更好。

      【讨论】:

      • 谢谢你们,确实传感器应该代表或多或少相同的东西,但我分别处理每个 3*5484 通道。但是,数据非常稀疏(例如,对于一个通道,超过 100k 个示例,可能 5-10k 是非零的),并且非常多样化(与平均值相比差异很大),所以我担心这种预处理会杀死很多数据零。有什么意见吗?
      • 预处理只是缩放数据并保持分布。试试看吧。
      猜你喜欢
      • 2020-08-24
      • 2017-01-20
      • 2018-05-19
      • 2019-10-22
      • 1970-01-01
      • 2011-06-18
      • 2020-06-30
      • 2014-11-22
      相关资源
      最近更新 更多