【问题标题】:Crawling a web site using Python [closed]使用 Python 抓取网站 [关闭]
【发布时间】:2012-01-09 17:32:03
【问题描述】:

对于我的第一个爬虫程序,我计划执行以下操作:

  1. 使用 Selenium 打开以下 URL:http://www.google.com/
  2. 收集所有相关链接
  3. 在结果页面上,列举所有存在的 http 链接并将它们存储在 csv 中。
  4. 返回第 2 步,但点击下一步

我该如何开始? (我使用的是 Python 2.6.6)。

【问题讨论】:

  • 在这个网站上使用硒是多余的。站点没有任何动态(ajax)内容。如果这是您的第一个任务,请尝试mechanize 文档中有示例

标签: python selenium web-crawler


【解决方案1】:

看看BeautifulSoup 库,在页面上查找链接非常容易,StackOverflow 上已经有示例。

【讨论】:

  • 谢谢大家。你的建议对我很有帮助。
  • 我使用了这个 BeautifulSoup 库并爬取了下面的链接
  • 看看 Python 的 re 库(用于正则表达式),您可以使用它来匹配符合您条件的 URL。
【解决方案2】:

IMO,lxml 更易于使用,并且具有 pythonic API。看here的例子有详细的解释。

【讨论】:

    【解决方案3】:

    如果您的目标只是获取数据,您是否考虑过联系 Cars.com 的人员?假设您的最终目标是获取数据而不仅仅是开发爬虫程序,他们或许能够为您提供提要或 API 访问权限。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-01-23
      • 2012-07-27
      • 1970-01-01
      • 2020-09-28
      • 2016-07-16
      • 1970-01-01
      • 2016-05-27
      • 1970-01-01
      相关资源
      最近更新 更多