【发布时间】:2012-11-09 10:05:01
【问题描述】:
我已经环顾了很长一段时间,还没有弄清楚如何解决这个问题。
我正在尝试从网站下载文件,但只返回“index.html”。这对我来说没用,因为我需要实际的文件。 我一直在使用类似的命令
wget --no-check-certificate -nc -nH -r -k -p -np --cut-dirs=3 \https://websitename/directory/folder_of_interest/
(我在.wgetrc 文件中设置了我的用户名和密码)。
上面的代码将返回递归目录,最后一个就是 index.html 文件。
我真的可以在这里用一只手。
【问题讨论】:
-
为什么是反斜杠? (
\https...) 另外,实际的 index.html 是否包含任何不指向其他域或父目录的链接? -
@JoakimGebart 我从一个网站上得到了这个语法(我不记得在哪里),它有反斜杠,所以我就用它了。它在不同的网站上运行良好,我能看到的唯一区别是它工作的网站有 blah.edu:1111/dirs,其中“:1111”是一个冒号和 4 个数字(虽然不是 1111)。我不知道“冒号”是什么意思,但我不知道我正在查看的网站是什么,而且我尝试过的随机数不起作用。 index.html 不包含任何链接。它提到了几个 input type = hidden name=[something] 和 'pubcookie' 几次
-
wget -r 命令通过在指定 URL 的 HTML 代码中查找链接和图像来工作,因此如果 index.html 不包含任何链接或图像或其他文件引用,那么它将不会下载 index.html 文件以外的任何内容。冒号是 TCP 端口号。如果它不是默认值,您只需要指定它(默认为:80 对于 http)。 This manual page of wget 也很有用。
-
这是 index.html 文件。我输入的站点是第二个站点,但它必须重定向到第一个站点:
-
你真正想要达到什么目的?你要下载什么?