【发布时间】:2016-04-25 09:43:11
【问题描述】:
我有一张表,其中的字段是:-
- ID(自动递增)
- 标题(实际文本数据)
- 标志(是或否,基于其他一些业务逻辑)
现在,我想继续使用 python 在此表中插入数据。我有一个 URL 爬虫,它从给定的网页中捕获 URL。问题是,每 10 分钟我都会阅读此页面以查看任何新链接。在当前设置中,爬虫提供 URL 并且我正在插入,但我想检查链接是否已经可用,那么它不应该被插入。例如:-
凌晨 1 点 - 找到 10 个链接。 凌晨 2 点 - 找到 10 个链接(其中 2 个是新链接)。所以 python 应该只插入 2 个新链接,而不是其余 8 个链接。
table rite 的大小现在是 10k 记录。所以我需要一个逻辑来解决这个问题。请帮忙。
【问题讨论】: