我强烈推荐scrapy!
https://scrapy.org/
它是一个为速度而构建的 Python 库。我最近做了一个爬虫,可以从某个网站下载每个页面,并从中构建一个自定义数据库,以下是该过程的一些统计数据:
{'downloader/request_bytes': 13544866,
'downloader/request_count': 36798,
'downloader/request_method_count/GET': 36798,
'downloader/response_bytes': 170688438,
'downloader/response_count': 36798,
'downloader/response_status_count/200': 36780,
'downloader/response_status_count/301': 17,
'downloader/response_status_count/302': 1,
'dupefilter/filtered': 22358,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2019, 6, 12, 20, 11, 41, 103069),
'item_scraped_count': 15160,
'log_count/DEBUG': 51960,
'log_count/ERROR': 64,
'log_count/INFO': 29,
'request_depth_max': 4,
'response_received_count': 36780,
'scheduler/dequeued': 36796,
'scheduler/dequeued/memory': 36796,
'scheduler/enqueued': 36796,
'scheduler/enqueued/memory': 36796,
'spider_exceptions/JSONDecodeError': 64,
'start_time': datetime.datetime(2019, 6, 12, 19, 51, 27, 87242)}
总的来说,它发出了 36,798 个请求并在我的输出中处理了 15,160 个页面。总共花了 20 分钟。