【问题标题】:using wget to download a directory使用 wget 下载目录
【发布时间】:2015-03-14 18:45:32
【问题描述】:

我正在尝试下载在线目录中的所有文件。我正在使用的命令是:

wget -r -np -nH -R index.html http://www.oecd-nea.org/dbforms/data/eva/evatapes/mendl_2/

使用这个命令我得到一个空目录。如果我在最后指定文件名,我可以一次得到一个,但我想一次得到它们。我只是缺少一些简单的东西吗?

命令输出:

--2015-03-14 14:54:05-- http://www.oecd-nea.org/dbforms/data/evaevatapes/mendl_2/ 解决 www.oecd-nea.org... 193.51.64.80 连接到 www.oecd-nea.org|193.51.64.80|:80... 已连接。 HTTP 请求已发送,等待响应... 200 OK 长度:未指定 [text/html] 保存到:âdbforms/data/eva/evatapes/mendl_2/index.htmlâdbforms/data/eva/evatapes/mendl_2/index.htmlârobots.txtârobots.txt

【问题讨论】:

  • 这对我来说似乎不是一个编程问题。
  • 我认为它是——它是关于以编程方式下载文件
  • 还有更好的论坛来发布这类问题吗?
  • 我试了一下(bash,ubuntu 14.04),它正在工作。当你问到你的 shell 时,你能复制粘贴完整的结果吗?

标签: bash wget


【解决方案1】:

添加您想要关注的链接深度(-l1,因为您只想关注一个链接):

wget -e robots=off -l1 -r -np -nH -R index.html http://www.oecd-nea.org/dbforms/data/eva/evatapes/mendl_2/

我还添加了-e robots=off,因为有一个robots.txt 通常会阻止 wget 通过该目录。对于世界其他地区:

  • -r递归,
  • -np没有父目录
  • -nH 不跨主机

【讨论】:

  • 我试了一下,又是清空目录
  • @Marcus Müller 你在 -R 之后忘记了 index.html
  • 啊!似乎有一个 robots.txt 阻止您下载它。所以我添加了-e robots=off 、@Arland。
  • 确实,不错。也许你应该在你的回答中直接解释。
猜你喜欢
  • 2019-05-30
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-06-21
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多