使用 Python 抓取网站 [关闭]

【问题标题】：Crawling a web site using Python [closed]使用 Python 抓取网站 [关闭]
【发布时间】：2012-01-09 17:32:03
【问题描述】：

对于我的第一个爬虫程序，我计划执行以下操作：

使用 Selenium 打开以下 URL：http://www.google.com/
收集所有相关链接
在结果页面上，列举所有存在的 http 链接并将它们存储在 csv 中。
返回第 2 步，但点击下一步

我该如何开始？（我使用的是 Python 2.6.6）。

【问题讨论】：

在这个网站上使用硒是多余的。站点没有任何动态（ajax）内容。如果这是您的第一个任务，请尝试mechanize 文档中有示例

标签： python selenium web-crawler

【解决方案1】：

看看BeautifulSoup 库，在页面上查找链接非常容易，StackOverflow 上已经有示例。

【讨论】：

谢谢大家。你的建议对我很有帮助。
我使用了这个 BeautifulSoup 库并爬取了下面的链接
看看 Python 的 re 库（用于正则表达式），您可以使用它来匹配符合您条件的 URL。

【解决方案2】：

IMO，lxml 更易于使用，并且具有 pythonic API。看here的例子有详细的解释。

【讨论】：

【解决方案3】：

如果您的目标只是获取数据，您是否考虑过联系 Cars.com 的人员？假设您的最终目标是获取数据而不仅仅是开发爬虫程序，他们或许能够为您提供提要或 API 访问权限。

【讨论】：

猜你喜欢

1970-01-01
2022-01-23
2012-07-27
1970-01-01
2020-09-28
2016-07-16
1970-01-01
2016-05-27
1970-01-01

相关资源

下载 2023-03-12
下载 2023-01-28
下载 2023-01-01
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode