如何使用 Azure Cosmos DB Spark 仅将不存在的记录写入 Cosmos DB？答案

【问题标题】：How to write only non existing records to Cosmos DB from using Azure Cosmos DB Spark?如何使用 Azure Cosmos DB Spark 仅将不存在的记录写入 Cosmos DB？
【发布时间】：2020-07-07 06:40:49
【问题描述】：

我正在使用 Databricks，它使用 Spark 连接器将数据从 CSV 文件写入 Cosmos DB。现在我的 Cosmos DB 已经包含很少的记录，所以当我运行 Databricks Notebooks 时，它应该只写入 DB 中不存在的记录。我尝试使用 SaveMode.Ignore 但没有帮助。

df.write.mode(SaveMode.Ignore).cosmosDB(writeConfig)

现在理想情况下，SaveMode.Ignore 应该跳过现有记录并写入数据库中不存在但没有发生的唯一记录。

如果有人对如何实现这一点提出建议，那将是一个很大的帮助。

谢谢。

【问题讨论】：

CosomosDB记录中的id字段是什么...是不是一直都一样
如果答案对您有帮助，您可以接受它作为答案（单击答案旁边的复选标记，将其从灰色切换为已填充。）。这对其他社区成员可能是有益的。谢谢。

标签： azure apache-spark azure-cosmosdb databricks azure-databricks

【解决方案1】：

使用 CSV 文件中的某些唯一字段创建具有唯一键的容器。之后，您无法将重复的唯一键值添加到 Cosmos DB。

【讨论】：