【问题标题】:How to read streaming datasets from AWS SQS?如何从 AWS SQS 读取流数据集?
【发布时间】:2018-10-27 23:24:56
【问题描述】:

对于 Spark 流,有 connectors 可以实现此功能。

不幸的是,对于 Spark 结构化流媒体,我找不到任何东西,因为它是一种较新的技术。有没有办法使用 Spark 流连接器连接到源?或者有没有一种方法可以创建类似于在spark streaming 应用程序中创建自定义连接器的方式?

【问题讨论】:

    标签: scala amazon-web-services apache-spark amazon-sqs spark-structured-streaming


    【解决方案1】:

    有没有办法使用火花流连接器连接到源?

    不知道。

    或者有没有一种方法可以创建自定义连接器,类似于在 spark 流应用程序中创建连接器的方式?

    我没有 AWS SQS 方面的经验,但我认为如果 Spark Streaming 支持它,Spark Structured Streaming 也应该支持。

    流式传输Source 接口允许您实现自定义数据源以加载流式数据集,也可能来自 AWS SQS。

    使用KafkaSourceTextSocketSource 作为模板。

    【讨论】:

      【解决方案2】:

      首先,与使用专注于流式数据处理、存储和分析的 AWS Kinesis Streams、Kinesis Firehorse 和 Kinesis Analytics 相比,AWS SQS 可能不适合流式传输需求。

      您可以通过事件连接Spark Streaming + Kinesis Integration 来配置 Spark Streaming 以从 Kinesis 接收数据。

      我认为 AWS SQS 目前没有 Spark 流连接器,但您应该能够使用 AWS SQS 开发工具包编写自定义连接器来轮询队列中的数据并推送到 Spark 流。

      【讨论】:

      • 如果 OP 询问“不幸的是,对于 spark 结构化流,我找不到任何东西,因为它是一种较新的技术”,我想知道您为什么说“spark 流连接器”?
      • 嗨 Jacek 我不太明白你的问题。你能详细说明一下吗?
      • 问题是关于 Spark Structured Streaming,但您在回答中使用了 Spark Streaming。模块不同。
      猜你喜欢
      • 2016-04-13
      • 1970-01-01
      • 2018-09-24
      • 2019-11-07
      • 2020-07-02
      • 1970-01-01
      • 2018-06-09
      • 1970-01-01
      • 2015-07-23
      相关资源
      最近更新 更多