【问题标题】:wget wont download actual fileswget不会下载实际文件
【发布时间】:2012-11-09 10:05:01
【问题描述】:

我已经环顾了很长一段时间,还没有弄清楚如何解决这个问题。

我正在尝试从网站下载文件,但只返回“index.html”。这对我来说没用,因为我需要实际的文件。 我一直在使用类似的命令

wget --no-check-certificate -nc -nH -r -k -p -np  --cut-dirs=3 \https://websitename/directory/folder_of_interest/

(我在.wgetrc 文件中设置了我的用户名和密码)。 上面的代码将返回递归目录,最后一个就是 index.html 文件。

我真的可以在这里用一只手。

【问题讨论】:

  • 为什么是反斜杠? (\https...) 另外,实际的 index.html 是否包含任何不指向其他域或父目录的链接?
  • @JoakimGebart 我从一个网站上得到了这个语法(我不记得在哪里),它有反斜杠,所以我就用它了。它在不同的网站上运行良好,我能看到的唯一区别是它工作的网站有 blah.edu:1111/dirs,其中“:1111”是一个冒号和 4 个数字(虽然不是 1111)。我不知道“冒号”是什么意思,但我不知道我正在查看的网站是什么,而且我尝试过的随机数不起作用。 index.html 不包含任何链接。它提到了几个 input type = hidden name=[something] 和 'pubcookie' 几次
  • wget -r 命令通过在指定 URL 的 HTML 代码中查找链接和图像来工作,因此如果 index.html 不包含任何链接或图像或其他文件引用,那么它将不会下载 index.html 文件以外的任何内容。冒号是 TCP 端口号。如果它不是默认值,您只需要指定它(默认为:80 对于 http)。 This manual page of wget 也很有用。
  • 这是 index.html 文件。我输入的站点是第二个站点,但它必须重定向到第一个站点:
    host?website" name=relay> actualWebsite.edu/PubCookie.reply">
  • 你真正想要达到什么目的?你要下载什么?

标签: unix download wget


【解决方案1】:

你有问题

wget \https://websitename/directory/folder_of_interest

这原本可能是

wget \
  https://websitename/directory/folder_of_interest

这是正确的,因为反斜杠正在转义换行符,但在您的示例中,它错误地转义了h。删除反斜杠或将 URL 移到下一行。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-02-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-06-14
    相关资源
    最近更新 更多