使用 wget 下载目录

【问题标题】：using wget to download a directory使用 wget 下载目录
【发布时间】：2015-03-14 18:45:32
【问题描述】：

我正在尝试下载在线目录中的所有文件。我正在使用的命令是：

wget -r -np -nH -R index.html http://www.oecd-nea.org/dbforms/data/eva/evatapes/mendl_2/

使用这个命令我得到一个空目录。如果我在最后指定文件名，我可以一次得到一个，但我想一次得到它们。我只是缺少一些简单的东西吗？

命令输出：

--2015-03-14 14:54:05-- http://www.oecd-nea.org/dbforms/data/evaevatapes/mendl_2/ 解决 www.oecd-nea.org... 193.51.64.80 连接到 www.oecd-nea.org|193.51.64.80|:80... 已连接。 HTTP 请求已发送，等待响应... 200 OK 长度：未指定 [text/html] 保存到：âdbforms/data/eva/evatapes/mendl_2/index.htmlâdbforms/data/eva/evatapes/mendl_2/index.htmlârobots.txtârobots.txt

【问题讨论】：

这对我来说似乎不是一个编程问题。
我认为它是——它是关于以编程方式下载文件
还有更好的论坛来发布这类问题吗？
我试了一下（bash，ubuntu 14.04），它正在工作。当你问到你的 shell 时，你能复制粘贴完整的结果吗？

标签： bash wget

【解决方案1】：

添加您想要关注的链接深度（-l1，因为您只想关注一个链接）：

wget -e robots=off -l1 -r -np -nH -R index.html http://www.oecd-nea.org/dbforms/data/eva/evatapes/mendl_2/

我还添加了-e robots=off，因为有一个robots.txt 通常会阻止 wget 通过该目录。对于世界其他地区：

-r递归，
-np没有父目录
-nH 不跨主机

【讨论】：

我试了一下，又是清空目录
@Marcus Müller 你在 -R 之后忘记了 index.html
啊！似乎有一个 robots.txt 阻止您下载它。所以我添加了-e robots=off 、@Arland。
确实，不错。也许你应该在你的回答中直接解释。