【发布时间】:2017-07-31 10:32:12
【问题描述】:
我正在处理流数据(使用 Java 和 Apache Flink),我想执行异常值检测。我有一个网络,每个传感器都接收一个流。 然后他们将流的采样版本发送到“领导”节点,该节点组合所有样本并生成全局模型。
之后,它将全局模型发送给每个孩子。孩子们将使用这个模型来检测异常值。 这必须以连续的方式发生(即每次领导者收到 x 个样本时,它都会更新模型并广播它)。
我发现的论文/方法遇到的问题是,为了构建模型,我需要拥有所有数据,而这是不可能的。领导者存储它收到的所有样本也是不可行的。
我正在写一个小例子:
传感器 A 接收到一些数据并发送给领导者
传感器 B 接收到一些数据并发送给领导者
Leader 使用接收到的值来构建广播的模型。
两个传感器接收其他数据,对于每个值,它们使用接收到的模型来执行异常值检测。 然后他们将新数据发送给领导者。
领导者更新模型并将新更新的模型发送给孩子。
我可以使用哪种方法来获得这种行为?
【问题讨论】:
标签: java apache-flink outliers