【发布时间】:2020-07-07 06:40:49
【问题描述】:
我正在使用 Databricks,它使用 Spark 连接器将数据从 CSV 文件写入 Cosmos DB。现在我的 Cosmos DB 已经包含很少的记录,所以当我运行 Databricks Notebooks 时,它应该只写入 DB 中不存在的记录。 我尝试使用 SaveMode.Ignore 但没有帮助。
df.write.mode(SaveMode.Ignore).cosmosDB(writeConfig)
现在理想情况下,SaveMode.Ignore 应该跳过现有记录并写入数据库中不存在但没有发生的唯一记录。
如果有人对如何实现这一点提出建议,那将是一个很大的帮助。
谢谢。
【问题讨论】:
-
CosomosDB记录中的id字段是什么...是不是一直都一样
-
如果答案对您有帮助,您可以接受它作为答案(单击答案旁边的复选标记,将其从灰色切换为已填充。)。这对其他社区成员可能是有益的。谢谢。
标签: azure apache-spark azure-cosmosdb databricks azure-databricks