【问题标题】:Convert RDD to DStream to apply StreamingKMeans algorithm in Apache Spark MlLib将 RDD 转换为 DStream 以在 Apache Spark MlLib 中应用 StreamingKMeans 算法
【发布时间】:2016-10-31 15:28:37
【问题描述】:

我有用于在 KDD cup 数据集上进行异常检测的 scala 代码。 代码在https://github.com/prashantprakash/KDDDataResearch/blob/master/Code/approach1Plus2/src/main/scala/PCA.scala

我想通过使用来自 MlLib 的 StreamingKMeans 算法来尝试一种新技术,并在上述代码中的第 288 行为真时更新我的​​ StreamingKmeans 模型 "if(dist

我看到 StreamingKmeans 以 DStreams 的形式获取数据。 "请帮助将现有的 RDD 转换为 Dstream。"

我找到了一个链接http://apache-spark-user-list.1001560.n3.nabble.com/RDD-to-DStream-td11145.html,但没有多大帮助。

如果有更好的设计来解决问题,也请指教。

【问题讨论】:

    标签: scala apache-spark k-means apache-spark-mllib


    【解决方案1】:

    据我所知,RDD不能转换为DStream,因为RDD是数据的集合,而DStream是指传入数据的概念。

    如果您想使用 StreamingKMeans,请将您形成的数据转换为 RDD,然后将其转换为 DStream,可能使用KafkaUtils.createDirectStreamssc.textFileStream

    希望这会有所帮助!

    【讨论】:

    • 您可以使用“queueStream”方法将RDD转换为DStream,参考link的简单示例(从第21行到第23行)
    猜你喜欢
    • 2016-06-28
    • 1970-01-01
    • 2016-10-01
    • 2016-01-02
    • 2015-05-07
    • 2015-02-10
    • 2017-04-05
    • 2017-06-29
    • 2020-06-03
    相关资源
    最近更新 更多