【发布时间】:2022-08-23 00:35:59
【问题描述】:
我对结构化流媒体有点陌生。如果你能帮助我,那就太好了。提前致谢。
我有一个批处理文件(假设为 csv),我们将其转换为每条记录 1 个事件并将其发送到 Azure 事件中心(与 Kafka 主题相同)。我们正在阅读它,进行一些数据质量检查并存储到增量表中。但在存储到增量表之前,我们需要根据状态为:更新、创建或删除的列进行更新插入和删除。基于此,我们需要将基于键的记录合并到增量表中(我的意思是更新或删除记录)。你能告诉我流式传输时的最佳方法?
-
如果您使用数据块 this 可能会有所帮助
-
你检查过 Azure 流分析-docs.microsoft.com/en-us/azure/azure-sql/database/…
标签: pyspark merge spark-streaming upsert delta