【发布时间】:2016-06-23 04:24:04
【问题描述】:
我目前正在做一个需要两个主要功能的项目:
仅从网站下载单个 HTML 页面(例如 www.my website.com/index.html)
递归地从网站下载每个 HTML 页面,不包括外部链接(基本上是下载整个网站)
我需要所有 HTML 页面中包含的所有图像和链接,而不仅仅是文本。
我目前正在为这两个功能使用scrapy。它运作良好,但我想知道使用 wget 或 curl 是否会更好。
我的问题:
哪种工具最适合我用来实现我的目标?
【问题讨论】:
标签: curl scrapy web-crawler wget