【问题标题】:normalization methods for stream data流数据的标准化方法
【发布时间】:2015-10-15 07:47:01
【问题描述】:

我正在使用 Clustream 算法,我发现我需要标准化我的数据。我决定使用 min-max 算法来做到这一点,但我认为通过这种方式,新数据对象的值的计算方式会有所不同,因为 min 和 max 的值可能会发生变化。你觉得我说的对吗?如果是这样,我应该使用哪种算法?

【问题讨论】:

    标签: stream machine-learning data-mining normalization


    【解决方案1】:

    您可以使用基于滑动窗口的局部归一化(例如,仅使用最后 15 秒的数据),而不是根据整个数据计算全局最小值-最大值。这种方法在信号和图像处理中计算局部均值滤波器非常常见。

    希望对你有帮助。

    【讨论】:

    • 嗨!我知道这有点晚了,但目前我发现自己遇到了同样的问题。问题是,如果您使用滑动窗口,考虑旧最小值和最大值的归一化表示的当前微集群与您获得不同最小值和最大值的新元素处于不同的“比例”。你如何处理这个问题?我的意思是,您对新数据点进行规范化,但考虑到旧值对算法管理的当前微集群进行规范化......您不能将新元素发送到算法,因为这会不一致!
    【解决方案2】:

    在规范化流数据时,您需要使用训练集的统计属性。在流式传输期间,您只需将太大/太低的值削减为最小/最大值。没有其他办法,你知道,这是一条溪流。

    但作为权衡,您可以不断收集所有数据的统计属性,并不时重新训练您的模型以适应不断变化的数据。我不知道 Clustream,但经过短暂的谷歌搜索:它似乎是一种有助于做出这种权衡的算法。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-10-06
      • 2017-01-20
      • 2018-05-19
      • 2012-08-23
      • 2020-12-24
      • 2014-12-21
      • 2017-10-19
      相关资源
      最近更新 更多