【问题标题】:Streaming data from Cosmos DB using Apache Spark 3使用 Apache Spark 3 从 Cosmos DB 流式传输数据
【发布时间】:2021-07-21 10:32:18
【问题描述】:

使用 Spark 2 连接器从 CosmosDB 流式传输可以使用 Changefeed 实现。

https://docs.microsoft.com/en-us/azure/cosmos-db/spark-connector#streaming-reads-from-cosmos-db

我们如何在 Spark 3 中做同样的事情?我正在使用 Cosmos DB Apache Spark 3 OLTP Connector for SQL API(测试版)。

https://docs.microsoft.com/en-us/azure/cosmos-db/create-sql-api-spark#query-cosmos-db

【问题讨论】:

    标签: apache-spark azure-cosmosdb spark-streaming spark-structured-streaming azure-databricks


    【解决方案1】:

    目前没有支持 Spark 3 的 CosmosDB 连接器的已发布版本。但您可以从 3.0 branch 自己编译连接器 - 它适用于我,包括 changefeed

    根据评论更新:测试版可用:https://docs.microsoft.com/en-us/azure/cosmos-db/sql-api-sdk-java-spark-v3

    【讨论】:

    • 你的意思是说,我需要编译和使用指向分支生成的jar?会试一试。感谢您的指导。
    • 很奇怪他们在存储库本身中没有任何提及:-(谢谢你,马克-如果你提交这个作为答案会更好
    • 谢谢你,马克和亚历克斯。正如我在问题中提到的,我只使用了 beta 版本库。不过,我可以看到查询(读取和写入)格式发生了变化。如果您能指出使用 Spark3 连接器完成 Streaming 的方式,那将是一个很大的帮助。我已将文档附加到问题中使用带有 Cosmos Changefeed 的 Spark2 流式传输。
    猜你喜欢
    • 1970-01-01
    • 2018-12-15
    • 2015-12-12
    • 1970-01-01
    • 1970-01-01
    • 2018-04-23
    • 2016-10-10
    • 1970-01-01
    • 2021-10-03
    相关资源
    最近更新 更多