【发布时间】:2015-10-15 07:47:01
【问题描述】:
我正在使用 Clustream 算法,我发现我需要标准化我的数据。我决定使用 min-max 算法来做到这一点,但我认为通过这种方式,新数据对象的值的计算方式会有所不同,因为 min 和 max 的值可能会发生变化。你觉得我说的对吗?如果是这样,我应该使用哪种算法?
【问题讨论】:
标签: stream machine-learning data-mining normalization
我正在使用 Clustream 算法,我发现我需要标准化我的数据。我决定使用 min-max 算法来做到这一点,但我认为通过这种方式,新数据对象的值的计算方式会有所不同,因为 min 和 max 的值可能会发生变化。你觉得我说的对吗?如果是这样,我应该使用哪种算法?
【问题讨论】:
标签: stream machine-learning data-mining normalization
您可以使用基于滑动窗口的局部归一化(例如,仅使用最后 15 秒的数据),而不是根据整个数据计算全局最小值-最大值。这种方法在信号和图像处理中计算局部均值滤波器非常常见。
希望对你有帮助。
【讨论】:
在规范化流数据时,您需要使用训练集的统计属性。在流式传输期间,您只需将太大/太低的值削减为最小/最大值。没有其他办法,你知道,这是一条溪流。
但作为权衡,您可以不断收集所有数据的统计属性,并不时重新训练您的模型以适应不断变化的数据。我不知道 Clustream,但经过短暂的谷歌搜索:它似乎是一种有助于做出这种权衡的算法。
【讨论】: