【问题标题】:How to write only non existing records to Cosmos DB from using Azure Cosmos DB Spark?如何使用 Azure Cosmos DB Spark 仅将不存在的记录写入 Cosmos DB?
【发布时间】:2020-07-07 06:40:49
【问题描述】:

我正在使用 Databricks,它使用 Spark 连接器将数据从 CSV 文件写入 Cosmos DB。现在我的 Cosmos DB 已经包含很少的记录,所以当我运行 Databricks Notebooks 时,它应该只写入 DB 中不存在的记录。 我尝试使用 SaveMode.Ignore 但没有帮助。

df.write.mode(SaveMode.Ignore).cosmosDB(writeConfig)

现在理想情况下,SaveMode.Ignore 应该跳过现有记录并写入数据库中不存在但没有发生的唯一记录。

如果有人对如何实现这一点提出建议,那将是一个很大的帮助。

谢谢。

【问题讨论】:

  • CosomosDB记录中的id字段是什么...是不是一直都一样
  • 如果答案对您有帮助,您可以接受它作为答案(单击答案旁边的复选标记,将其从灰色切换为已填充。)。这对其他社区成员可能是有益的。谢谢。

标签: azure apache-spark azure-cosmosdb databricks azure-databricks


【解决方案1】:

使用 CSV 文件中的某些唯一字段创建具有唯一键的容器。之后,您无法将重复的唯一键值添加到 Cosmos DB。

更多信息: https://docs.microsoft.com/en-us/azure/cosmos-db/unique-keys

【讨论】:

    猜你喜欢
    • 2021-01-05
    • 2020-03-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-06-17
    • 1970-01-01
    相关资源
    最近更新 更多