【问题标题】:Recursion in wget with outside directorieswget中的递归与外部目录
【发布时间】:2020-12-03 19:55:12
【问题描述】:

我有一个链接列表。这些链接每个都有一小部分我正在尝试归档的文本文件。

我的列表位于 host/file/list.html

该列表有近一千个指向 /file/list.html?id=xxx 的链接

在 list.html?id 页面内,链接文件位于 /data/file/list/filename.txt ,文件名除文件类型外没有任何模式。

一路上都是我想忽略的页眉和页脚链接。如果我将我的包含目录设置为 /data/file/list 它不会抓取 /file/list.html?id=xxx 的任何页面

这是我到目前为止所得到的,但它不适用于递归 l=2,我必须在 id 页面本身上才能工作。

wget --recursive -l 2 --include-directories=/data/file/list http://host/file/list.html

这只会下载 list.html 并停止。如果我还包含 /file/list 它会下载太多其他文件,我只想下载尽可能少的文件。我意识到它必须读取每个 list.html?id 页面才能获取 txt 文件列表,但看起来它一次下载所有 id 页面而不通过链接。以防万一我的递归限制错误,我尝试了 l=3 但结果相同。

【问题讨论】:

    标签: recursion wget archive


    【解决方案1】:

    我最终使用了将 /file/list 添加到包含目录的代码,还添加了 -nc 以帮助防止多次下载相同的页眉、页脚链接。它似乎运行良好,主要是下载必要的文件。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-09-21
      • 2011-11-14
      • 2011-06-22
      • 2015-02-08
      相关资源
      最近更新 更多