【问题标题】:What's a good web crawler to download HTML pages? [closed]什么是下载 HTML 页面的好网络爬虫? [关闭]
【发布时间】:2011-10-18 15:25:04
【问题描述】:

我正在寻找一个网络爬虫/蜘蛛来下载单个页面。什么是支持此功能的好(最好是免费)产品?

【问题讨论】:

  • 请解释是什么让这个问题成为编程问题?如果不是,请阅读我们的FAQ,看看这里可以接受哪些问题。
  • @Oded:是的,这很可能属于superuser.comwebmasters.stackexchange.com
  • 我可以推荐HTTrack。 GUI 将引导您完成设置网站下载时的选项。您可能会更改的有趣设置是扫描规则(用于包括/排除文件/路径)、最大镜像深度以及是否要先下载 html 文件。您通常可以保留其他默认值。默认情况下会重写链接,以便可以使用网络浏览器在本地浏览镜像站点。可以重新启动站点下载,然后仅下载本地不存在的文件。

标签: html web-crawler


【解决方案1】:

wgetcurl 浮现在脑海中。您的具体要求是什么?您需要递归爬取页面,还是只下载特定的 URL? wget 两者都可以。

【讨论】:

    【解决方案2】:

    我会去 WGET www.gnu.org/s/wget/

    【讨论】:

      【解决方案3】:

      如果你想下载一个坑网站,那么试试wget。它具有递归下载的功能。如果您需要处理标题并且只下载几个小文件,请尝试curl(或 wget)。 如果您需要并行下载大文件等功能,我建议aria2

      【讨论】:

        【解决方案4】:
        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2011-07-07
        • 1970-01-01
        • 2018-01-26
        • 2010-11-23
        • 1970-01-01
        • 1970-01-01
        • 2013-08-21
        相关资源
        最近更新 更多