【问题标题】:upsert and delete in delta table in spark streaming在火花流中的增量表中插入和删除
【发布时间】:2022-08-23 00:35:59
【问题描述】:

我对结构化流媒体有点陌生。如果你能帮助我,那就太好了。提前致谢。

我有一个批处理文件(假设为 csv),我们将其转换为每条记录 1 个事件并将其发送到 Azure 事件中心(与 Kafka 主题相同)。我们正在阅读它,进行一些数据质量检查并存储到增量表中。但在存储到增量表之前,我们需要根据状态为:更新、创建或删除的列进行更新插入和删除。基于此,我们需要将基于键的记录合并到增量表中(我的意思是更新或删除记录)。你能告诉我流式传输时的最佳方法?

标签: pyspark merge spark-streaming upsert delta


【解决方案1】:

我也有类似的情况。使用青铜表中的新数据更新白银表。我在 databricks 论坛上开了一个讨论。

https://community.databricks.com/s/feed/0D58Y000096U4yASA

【讨论】:

    猜你喜欢
    • 2022-11-10
    • 2023-03-11
    • 2017-08-12
    • 1970-01-01
    • 1970-01-01
    • 2018-08-09
    • 2019-07-07
    • 2020-07-10
    • 2020-06-21
    相关资源
    最近更新 更多