【问题标题】:R - download website including all .css, .js, pictures etcR - 下载网站,包括所有 .css、.js、图片等
【发布时间】:2018-11-22 08:56:39
【问题描述】:

假设我想下载 r-Bloggers.com 的页面。 如果我在 Chrome 中按 Ctrl+S,将下载一个 html 文件以及一个包含 58 个文件(.css、.js、图片等)的文件夹

我想从 R 做同样的事情。

我找到了答案并把它包装成system():system("wget --page-requisites https://www.r-bloggers.com/")

不给我 58+1 文件。

同样适用于:

download.file(url = "https://www.r-bloggers.com/", 
              destfile = "try", mode = "wget", extra = "--page-requisites")
download.file(url = "https://www.r-bloggers.com/", 
              destfile = "try.html", mode = "wget", extra = "--page-requisites")

【问题讨论】:

    标签: r curl wget


    【解决方案1】:

    这是因为默认情况下 Wget 只会尝试从同一个域下载项目。但是,该网站会从不同的主机加载所有内容。

    您需要使用--span-hosts 标志来允许Wget 访问来自不同主机的文件

    【讨论】:

      猜你喜欢
      • 2015-03-22
      • 1970-01-01
      • 1970-01-01
      • 2012-08-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-02-21
      相关资源
      最近更新 更多