【发布时间】:2017-05-23 21:40:56
【问题描述】:
我一直在尝试找到从 URL 下载文件的解决方案,例如:https://.com//。我了解了 wget 并尝试了很多选项,但意识到它不会下载任何在索引文件或任何类型中没有直接链接的文件。
例如,我想从https://somesites.com/myfolder/myfiles/ 下载所有内容。
假设“myfiles”目录下有一个 index.html,许多 html 文件和几个目录都在 index 中引用和链接,还有几个其他 html 文件,例如 sample123.html 和 sample456.html。
wget 命令成功下载了所有,但 sample123.html 和 sample456.html 几乎包含了大多数常见和众所周知的选项。
是否有任何其他工具可以抓取位于https://somesites.com/myfolder/myfiles/ 中的所有文件,无论是否有直接链接?
我还尝试了针对 http URL 的 lftp,但下载结果比 wget 的文件少得多。
我为此查看了堆栈溢出,但推荐的命令是仅下载具有直接链接(通过 wget)的文件的命令。
【问题讨论】: