【发布时间】:2011-04-30 07:04:59
【问题描述】:
我需要用 Python 编写的优秀网络爬虫将完整的页面存储到 mysql 数据库中。我正在试验的小系统现在使用 PHP Sphider 来抓取并存储到数据库中。我需要一些几乎与 sphider 一样工作的东西,但用 Python 编写。因此,只需将数据库存储到表中,从其他脚本获取内容并完成我需要的其余工作。 Sphider 很慢,想换掉。
所以,我查看了 scrapy 和其他一些项目,但没有任何东西符合我的需求,这是我开始自己编码之前的最后一次尝试,所以如果有人知道什么可以解决我这个问题,请告诉我。
【问题讨论】:
-
scrapy.org 应该做你正在寻找的东西
-
是否有你不能使用scrapy然后覆盖保存函数将数据放入mysql数据库的原因。您甚至可以使用像 SQLAlchemy 这样的 ORM 来更轻松地保存和检索信息。也许如果您告诉我们为什么 scrapy 不够用,那么我们可以提供更多帮助。
标签: python web-crawler