【发布时间】:2010-12-07 14:27:52
【问题描述】:
我正在使用 Python 中的 threading 和 Queue 模块编写一个简单的爬虫。我获取一个页面,检查链接并将它们放入队列中,当某个线程完成处理页面时,它会从队列中获取下一个。我正在为我已经访问过的页面使用一个数组来过滤我添加到队列中的链接,但是如果有多个线程并且它们在不同的页面上获得相同的链接,它们会将重复的链接放入队列中。那么如何确定某个 url 是否已经在队列中以避免再次将其放在那里呢?
【问题讨论】:
-
“数组”?在 Python 中?你的意思是“列表”还是“元组”或“字典”?如果您的意思是“数组”,您使用的是哪个数组实现?麻木?
标签: python multithreading queue