wget不会下载实际文件答案

【问题标题】：wget wont download actual fileswget不会下载实际文件
【发布时间】：2012-11-09 10:05:01
【问题描述】：

我已经环顾了很长一段时间，还没有弄清楚如何解决这个问题。

我正在尝试从网站下载文件，但只返回“index.html”。这对我来说没用，因为我需要实际的文件。我一直在使用类似的命令

wget --no-check-certificate -nc -nH -r -k -p -np  --cut-dirs=3 \https://websitename/directory/folder_of_interest/

（我在.wgetrc 文件中设置了我的用户名和密码）。上面的代码将返回递归目录，最后一个就是 index.html 文件。

我真的可以在这里用一只手。

【问题讨论】：

为什么是反斜杠？ (\https...) 另外，实际的 index.html 是否包含任何不指向其他域或父目录的链接？
@JoakimGebart 我从一个网站上得到了这个语法（我不记得在哪里），它有反斜杠，所以我就用它了。它在不同的网站上运行良好，我能看到的唯一区别是它工作的网站有 blah.edu:1111/dirs，其中“:1111”是一个冒号和 4 个数字（虽然不是 1111）。我不知道“冒号”是什么意思，但我不知道我正在查看的网站是什么，而且我尝试过的随机数不起作用。 index.html 不包含任何链接。它提到了几个 input type = hidden name=[something] 和 'pubcookie' 几次
wget -r 命令通过在指定 URL 的 HTML 代码中查找链接和图像来工作，因此如果 index.html 不包含任何链接或图像或其他文件引用，那么它将不会下载 index.html 文件以外的任何内容。冒号是 TCP 端口号。如果它不是默认值，您只需要指定它（默认为：80 对于 http）。 This manual page of wget 也很有用。
这是 index.html 文件。我输入的站点是第二个站点，但它必须重定向到第一个站点：
host?website" name=relay> actualWebsite.edu/PubCookie.reply">
你真正想要达到什么目的？你要下载什么？

【解决方案1】：

你有问题

wget \https://websitename/directory/folder_of_interest

这原本可能是

wget \
  https://websitename/directory/folder_of_interest

这是正确的，因为反斜杠正在转义换行符，但在您的示例中，它错误地转义了h。删除反斜杠或将 URL 移到下一行。

【讨论】：