【发布时间】:2015-05-04 01:50:27
【问题描述】:
我使用 wget 下载整个网站。
我使用了以下命令(在 Windows 7 中):
wget ^
--recursive ^
-A "*thread*, *label*" ^
--no-clobber ^
--page-requisites ^
--html-extension ^
--domains example.com ^
--random-wait ^
--no-parent ^
--background ^
--header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" ^
http://example.com/
两天后,我的小弟重新启动了电脑
所以我试图恢复停止的进程
我在命令中添加了以下内容
--continue ^
所以代码看起来像
wget ^
--recursive ^
-A "*thread*, *label*" ^
--no-clobber ^
--page-requisites ^
--html-extension ^
--domains example.com ^
--random-wait ^
--no-parent ^
--background ^
--continue ^
--header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" ^
http://example.com/
不幸的是,它开始了一项新工作,它再次下载相同的文件并写入一个名为
的新日志文件wget-log.1
是否可以使用 wget 恢复镜像站点,或者我是否必须重新开始整个过程?
【问题讨论】:
标签: cmd web-scraping web-crawler wget