【问题标题】:Python web crawling and storing to mysqlPython网络爬取并存储到mysql
【发布时间】:2011-04-30 07:04:59
【问题描述】:

我需要用 Python 编写的优秀网络爬虫将完整的页面存储到 mysql 数据库中。我正在试验的小系统现在使用 PHP Sphider 来抓取并存储到数据库中。我需要一些几乎与 sphider 一样工作的东西,但用 Python 编写。因此,只需将数据库存储到表中,从其他脚本获取内容并完成我需要的其余工作。 Sphider 很慢,想换掉。

所以,我查看了 scrapy 和其他一些项目,但没有任何东西符合我的需求,这是我开始自己编码之前的最后一次尝试,所以如果有人知道什么可以解决我这个问题,请告诉我。

【问题讨论】:

  • scrapy.org 应该做你正在寻找的东西
  • 是否有你不能使用scrapy然后覆盖保存函数将数据放入mysql数据库的原因。您甚至可以使用像 SQLAlchemy 这样的 ORM 来更轻松地保存和检索信息。也许如果您告诉我们为什么 scrapy 不够用,那么我们可以提供更多帮助。

标签: python web-crawler


【解决方案1】:

小心!

这个答案是为初学者量身定做的,它不是最佳的,也不是最聪明的。

但我强烈推荐scrapy。 试试教程。 并且记住使用 Firefox + Firebug 扩展来导航并学习内部的pathsxpathshtml 后解析器的数据位置。

检查类似的答案“Going from Ruby to Python crawlers”和“Python read my outlook email mailbox and parse messages

节省您的时间并使用带有 FireBug 扩展的 Firefox(启用 inspect

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-10-12
    相关资源
    最近更新 更多