用于异常检测的时间序列数据预处理答案

【问题标题】：Time series data pre-processing for anomaly detection用于异常检测的时间序列数据预处理
【发布时间】：2018-08-05 00:20:06
【问题描述】：

我正在使用跨越两个月 [2015 年 11 月和 2015 年 12 月] 的大量时间序列数据，其中包含时间戳观察。总共约600万个样本。我使用数据集中的干净数据部分来训练 One 类 SVM。

这里要注意的是，我已经相应地对数据进行了缩放和规范化，但我正在使用处理过的原始时间戳来训练它。在我训练了 OCSVM 之后 - 在我的测试数据上对其进行测试效果不佳。结果非常不准确。

我认为的原因是因为我正在使用时间戳对其进行训练。但我是不确定。

是否更建议进行预处理并获得平均值每小时然后训练它，而不是每次观察都照原样？

我一直试图在训练之前找到如何处理时间序列数据，但我找不到任何东西。任何建议或参考论文将不胜感激

注意：我在简历上也问过同样的问题。

【问题讨论】：

【解决方案1】：

我建议您对所有数据进行标准化，这会产生很大的不同。 LibSVM 使用以下公式对数据列进行规范化。使用从训练中获得的归一化值对您的训练数据进行归一化并实施归一化以进行预测。

这里要提到的另一件事是，训练One-Class-SVM 非常困难。因此，也许您应该使用标准的二元分类方法并使用第二类来捕获目标类的所有错误分类。您还可以使用一些Hard-Negative-Mining。

【讨论】：