【发布时间】:2016-01-15 20:37:37
【问题描述】:
所以我用 Python 创建了一个程序,用于收集我使用的论坛的帖子统计信息。它基本上循环遍历一长串 URL,用 urllib.request.urlopen 打开每个 URL,并收集每个帖子的信息。 我遇到的问题是,这个网站显然不喜欢我经常打开他们的一堆 URL,并尽其所能阻止我这样做。 (我假设这是他们防止垃圾邮件充斥网站的方法)。
在此之后,我尝试使用 SiteSucker 等站点下载应用程序。但是我的电脑没有足够的空间容纳大约 7,000 页的 HTML,所以这也不起作用。
我想要的是能够使用 Python 安全地下载每个页面,分析其 HTML,然后将其删除,而网站不会阻止我。有什么解决办法吗?
【问题讨论】: