【问题标题】:Real-time anomaly detection实时异常检测
【发布时间】:2016-02-21 10:14:41
【问题描述】:

我想在 R 中对传感器数据的实时流进行异常检测。我想探索使用 Twitter anomalyDetectionanomalous

我正在尝试考虑最有效的方法,因为一些在线资源表明 R 不适合实时异常检测。见https://anomaly.io/anomaly-detection-twitter-r。我应该使用stream 包来实现我自己的数据流源吗?如果我这样做,是否有任何“经验法则”关于我应该流多少数据才能拥有足够数量的数据(也许这是我需要试验的)?有什么方法可以在数据库中而不是在应用程序中进行异常检测以加快处理速度?

【问题讨论】:

  • 可能,我也在寻找是否有专门的流处理算法用于异常检测(例如,我应该使用“流”包框架创建一个新的数据流任务实现吗?
  • 我又来了(感觉有点寂寞)。关于将 Apache Storm 与 R 包 anomalyDetection 集成的任何博客/链接/建议?

标签: r time-series large-data


【解决方案1】:

我的经验是,如果您想要实时异常检测,则需要应用在线学习算法(而不是批处理),理想情况下在收集/生成每个样本时对其运行。为此,您需要修改现有的开源代码以在线模式运行,并为每个处理的样本调整模型参数。 我不知道有一个开源包可以做到这一点。 例如,如果您正在计算一个非常简单的异常检测器,使用正态分布,您需要做的就是使用每个到达的样本更新每个度量的均值和方差。如果您希望模型具有自适应性,则需要添加一个遗忘因子(例如指数遗忘),并控制均值和方差的“记忆”。 另一个适用于在线学习的算法是 Holt-Winters。它有几个 R 实现,但您仍然必须使其以在线模式运行才能实时运行。

我在去年 5 月的大数据、分析和应用机器学习 - 以色列创新会议上就这个主题发表了演讲。视频位于: https://www.youtube.com/watch?v=SrOM2z6h_RQ (免责声明:我是 Anodot 的首席数据科学家,这是一家从事实时异常检测的商业公司。

【讨论】:

  • 谢谢艾拉。我看了你的演讲,这很有趣,我想知道你是否有任何幻灯片可用,因为幻灯片在演示文稿中不可见。
  • 我很乐意发送幻灯片。我的电子邮件是我在公司名称 .com 中的名字
猜你喜欢
  • 2020-05-20
  • 1970-01-01
  • 2018-07-11
  • 1970-01-01
  • 1970-01-01
  • 2014-05-06
  • 2020-08-27
  • 2019-07-24
  • 2017-12-26
相关资源
最近更新 更多