如何用 Python 有效地分析大量网页？答案

【问题标题】：How to effectively analyze a large amount of web pages with Python?如何用 Python 有效地分析大量网页？
【发布时间】：2016-01-15 20:37:37
【问题描述】：

所以我用 Python 创建了一个程序，用于收集我使用的论坛的帖子统计信息。它基本上循环遍历一长串 URL，用 urllib.request.urlopen 打开每个 URL，并收集每个帖子的信息。我遇到的问题是，这个网站显然不喜欢我经常打开他们的一堆 URL，并尽其所能阻止我这样做。（我假设这是他们防止垃圾邮件充斥网站的方法）。

在此之后，我尝试使用 SiteSucker 等站点下载应用程序。但是我的电脑没有足够的空间容纳大约 7,000 页的 HTML，所以这也不起作用。

我想要的是能够使用 Python 安全地下载每个页面，分析其 HTML，然后将其删除，而网站不会阻止我。有什么解决办法吗？

【问题讨论】：

标签： python html url urllib2

【解决方案1】：

requests 将忽略 robots.txt 和可能的其他 bot 保护，用于解析 html，我在安装后使用 Beautifulsoup 你编写

from bs4 import BeautifulSoup

导入它。这是beautifulsoup http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 的网站和请求的网站。 http://docs.python-requests.org/en/latest/

【讨论】：