【发布时间】:2020-10-16 20:31:57
【问题描述】:
所以,直奔问题。我们有许多拥有本地 MongoDB 的客户,每天都会生成新数据并将其存储在 .TSV 文件中,这些文件使用 mongoimport(插入、更新和合并)上传到他们的数据库,以实现增量加载。
我们已经有一个 _id 字段作为 mongo 的 Key,所以这样 mongo 可以自动检测文档是否已经存在,如果不存在,他将导入该文档,这有点增加负载(再次,mongoimport 提到以上)。
由于我们已经让插入和更新正常工作,我们现在要做的是:
- 如何自动删除本地mongo中没有.TSV文件的文档?
记住我们已经创建了_id,也许我们可以将它用作比较键。
基本上我们想要实现的是,存储在客户端本地 mongo 中的数据与我们导入的 .TSV 文件中存储的数据相同,因此 mongo 将成为客户端数据的“镜像”。无需每天删除和上传所有内容。
我希望它足够清楚,可以理解我们想要做什么。
谢谢!
【问题讨论】:
-
我们讨论了多少文件?
-
很多文档,每个客户的数量会有所不同,但是我们可以说每天我们可能需要删除几十到几千个,但我认为绝大多数会在数百
标签: mongodb mongodb-query pymongo increment delete-file