Python网络爬取并存储到mysql答案

【问题标题】：Python web crawling and storing to mysqlPython网络爬取并存储到mysql
【发布时间】：2011-04-30 07:04:59
【问题描述】：

我需要用 Python 编写的优秀网络爬虫将完整的页面存储到 mysql 数据库中。我正在试验的小系统现在使用 PHP Sphider 来抓取并存储到数据库中。我需要一些几乎与 sphider 一样工作的东西，但用 Python 编写。因此，只需将数据库存储到表中，从其他脚本获取内容并完成我需要的其余工作。 Sphider 很慢，想换掉。

所以，我查看了 scrapy 和其他一些项目，但没有任何东西符合我的需求，这是我开始自己编码之前的最后一次尝试，所以如果有人知道什么可以解决我这个问题，请告诉我。

【问题讨论】：

scrapy.org 应该做你正在寻找的东西
是否有你不能使用scrapy然后覆盖保存函数将数据放入mysql数据库的原因。您甚至可以使用像 SQLAlchemy 这样的 ORM 来更轻松地保存和检索信息。也许如果您告诉我们为什么 scrapy 不够用，那么我们可以提供更多帮助。

标签： python web-crawler

【解决方案1】：

小心！

这个答案是为初学者量身定做的，它不是最佳的，也不是最聪明的。

但我强烈推荐scrapy。试试教程。并且记住使用 Firefox + Firebug 扩展来导航并学习内部的paths、xpaths和html 后解析器的数据位置。

检查类似的答案“Going from Ruby to Python crawlers”和“Python read my outlook email mailbox and parse messages”

节省您的时间并使用带有 FireBug 扩展的 Firefox（启用 inspect）

【讨论】：