【问题标题】:How to effectively analyze a large amount of web pages with Python?如何用 Python 有效地分析大量网页?
【发布时间】:2016-01-15 20:37:37
【问题描述】:

所以我用 Python 创建了一个程序,用于收集我使用的论坛的帖子统计信息。它基本上循环遍历一长串 URL,用 urllib.request.urlopen 打开每个 URL,并收集每个帖子的信息。 我遇到的问题是,这个网站显然不喜欢我经常打开他们的一堆 URL,并尽其所能阻止我这样做。 (我假设这是他们防止垃圾邮件充斥网站的方法)。

在此之后,我尝试使用 SiteSucker 等站点下载应用程序。但是我的电脑没有足够的空间容纳大约 7,000 页的 HTML,所以这也不起作用。

我想要的是能够使用 Python 安全地下载每个页面,分析其 HTML,然后将其删除,而网站不会阻止我。有什么解决办法吗?

【问题讨论】:

    标签: python html url urllib2


    【解决方案1】:

    requests 将忽略 robots.txt 和可能的其他 bot 保护,用于解析 html,我在安装后使用 Beautifulsoup 你编写

    from bs4 import BeautifulSoup
    

    导入它。这是beautifulsoup http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 的网站和请求的网站。 http://docs.python-requests.org/en/latest/

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-01-21
      • 1970-01-01
      相关资源
      最近更新 更多