Python 谷歌网络爬虫

【问题标题】：Python Google Web CrawlerPython 谷歌网络爬虫
【发布时间】：2013-10-15 17:52:58
【问题描述】：

我正在做一个需要在 Internet 上进行搜索的项目（即堆栈溢出）。从搜索到 XML 文件的爬虫检索所有相关结果（URL、文本、图像路径）。我正在用python构建它。有人对我应该如何解决这个问题有任何建议吗？我不想扫描整个网络，只想搜索相关结果（stackoverflow，2013 年 10 月 8 日，python 为例）

【问题讨论】：

“我不想扫描整个网络……”-您是说网站吗？

标签： python xml search web-crawler

【解决方案1】：

听起来你可以使用 BeautifulSoup。并查看此线程，这听起来像是您需要的。 Creating an XML document with BeautifulSoup: StackOverFlow

BeautifulSoup的下载和使用，网址是here

使用起来非常简单。希望这会有所帮助。

【讨论】：

【解决方案2】：

stackoverflow可以直接使用api

例如： https://api.stackexchange.com/2.1/questions?fromdate=1381190400&todate=1381276800&order=desc&sort=activity&tagged=python&site=stackoverflow

见https://api.stackexchange.com/docs/questions#fromdate=2013-10-08&todate=2013-10-09&order=desc&sort=activity&tagged=python&filter=default&site=stackoverflow

你不能每秒发出超过 30 个请求，请参阅 http://api.stackexchange.com/docs/throttle

【讨论】：

stackoverflow 只是我正在考虑通过谷歌搜索数据的一个例子。
其实是google禁止自动请求的服务条款

猜你喜欢

2017-02-25
2015-05-12
1970-01-01
1970-01-01
2013-01-09
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-05
下载 2022-12-21
下载 2022-12-26

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode