什么是下载 HTML 页面的好网络爬虫？ [关闭]答案

【问题标题】：What's a good web crawler to download HTML pages? [closed]什么是下载 HTML 页面的好网络爬虫？ [关闭]
【发布时间】：2011-10-18 15:25:04
【问题描述】：

我正在寻找一个网络爬虫/蜘蛛来下载单个页面。什么是支持此功能的好（最好是免费）产品？

【问题讨论】：

请解释是什么让这个问题成为编程问题？如果不是，请阅读我们的FAQ，看看这里可以接受哪些问题。
@Oded：是的，这很可能属于superuser.com 或webmasters.stackexchange.com。
我可以推荐HTTrack。 GUI 将引导您完成设置网站下载时的选项。您可能会更改的有趣设置是扫描规则（用于包括/排除文件/路径）、最大镜像深度以及是否要先下载 html 文件。您通常可以保留其他默认值。默认情况下会重写链接，以便可以使用网络浏览器在本地浏览镜像站点。可以重新启动站点下载，然后仅下载本地不存在的文件。

【解决方案1】：

wget 或 curl 浮现在脑海中。您的具体要求是什么？您需要递归爬取页面，还是只下载特定的 URL？ wget 两者都可以。

【讨论】：

【解决方案2】：

我会去 WGET www.gnu.org/s/wget/

【讨论】：

【解决方案3】：

如果你想下载一个坑网站，那么试试wget。它具有递归下载的功能。如果您需要处理标题并且只下载几个小文件，请尝试curl（或 wget）。如果您需要并行下载大文件等功能，我建议aria2。

【讨论】：

【解决方案4】：

【讨论】：