【问题标题】:Spark : get Multiple DStream out of a single DStreamSpark:从单个 DStream 中获取多个 DStream
【发布时间】:2016-04-26 03:11:51
【问题描述】:

可以从 spark 的单个 DStream 中获取多个 DStream。 我的用例如下:我从 HDFS 文件中获取日志数据流。 日志行包含一个 id (id=xyz)。 我需要根据 id 以不同的方式处理日志行。 所以我试图为输入 Dstream 中的每个 id 设置不同的 Dstream。 我在文档中找不到任何相关内容。 有谁知道如何在 Spark 中实现这一点或指向任何链接。

谢谢

【问题讨论】:

    标签: apache-spark spark-streaming dstream


    【解决方案1】:

    您不能从单个 DStream 中拆分多个 DStream。 你能做的最好的就是:-

    1. 修改您的源系统,为不同的 ID 提供不同的流,然后您可以有不同的作业来处理不同的流
    2. 如果您的来源无法更改并为您提供混合 ID 的流,则您需要编写自定义逻辑来识别 ID,然后执行相应的操作。

    我总是更喜欢 #1,因为它是更清洁的解决方案,但也有需要实施 #2 的例外情况。

    【讨论】:

    • 谢谢。所以我相信我也不能根据 id 从源创建多个数据框?
    • 我的做法是 - 首先创建 DataFrame,然后根据某些条件过滤 DataFrame 以创建进一步过滤的数据帧或对过滤后的数据执行一些操作。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-02-24
    • 1970-01-01
    • 2018-07-06
    • 2016-06-29
    • 1970-01-01
    • 2019-01-05
    相关资源
    最近更新 更多