【问题标题】:how to resume wget mirroring website?如何恢复wget镜像网站?
【发布时间】:2015-05-04 01:50:27
【问题描述】:

我使用 wget 下载整个网站。
我使用了以下命令(在 Windows 7 中):

wget ^
 --recursive ^
 -A "*thread*, *label*" ^
 --no-clobber ^
 --page-requisites ^
 --html-extension ^
 --domains example.com ^
 --random-wait ^
 --no-parent ^
 --background ^
 --header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" ^
     http://example.com/

两天后,我的小弟重新启动了电脑
所以我试图恢复停止的进程
我在命令中添加了以下内容

--continue ^

所以代码看起来像

wget ^
     --recursive ^
     -A "*thread*, *label*" ^
     --no-clobber ^
     --page-requisites ^
     --html-extension ^
     --domains example.com ^
     --random-wait ^
     --no-parent ^
     --background ^
     --continue ^
     --header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" ^
         http://example.com/

不幸的是,它开始了一项新工作,它再次下载相同的文件并写入一个名为

的新日志文件
wget-log.1

是否可以使用 wget 恢复镜像站点,或者我是否必须重新开始整个过程​​?

【问题讨论】:

    标签: cmd web-scraping web-crawler wget


    【解决方案1】:

    试试 -nc 选项。它再次检查所有内容,但不下载。

    我正在使用此代码下载一个网站: wget -r -t1 domain.com -o log

    我已经停止了这个过程,我想恢复它,所以我改变了代码: wget -nc -r -t1 domain.com -o log

    在日志中有这样的内容: File .... already there; not retrieving. etc.

    我在此之前检查了日志,似乎在这种检查大约 5 分钟后,它开始下载新文件。

    我正在使用这本 wget 手册:http://www.linux.net.pl/~wkotwica/doc/wget/wget_8.html

    【讨论】:

    • 但它只检查文件是否存在。它不检查文件是否完整。
    • 也不能和--convert-links一起使用
    猜你喜欢
    • 2014-01-19
    • 2013-09-02
    • 1970-01-01
    • 2011-04-27
    • 1970-01-01
    • 2011-09-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多