【问题标题】:How do you archive an entire website for offline viewing?您如何存档整个网站以供离线查看?
【发布时间】:2010-10-07 00:50:19
【问题描述】:

我们实际上已经多次为客户烧录我们的 asp.net 网站的静态/存档副本。到目前为止,我们一直在使用WebZip,但我们遇到了无穷无尽的问题,比如崩溃、下载的页面没有正确重新链接等等。

我们基本上需要一个应用程序来抓取和下载我们的 asp.net 网站上所有内容(页面、图像、文档、css 等)的静态副本,然后处理下载的页面,以便可以在没有互联网连接的情况下在本地浏览它们(摆脱链接中的绝对网址等)。白痴证明越多越好。这似乎是一个非常常见且(相对)简单的过程,但我已经尝试了一些其他应用程序并且真的不为所动

有没有人推荐的存档软件?有没有人愿意分享一个非常简单的过程?

【问题讨论】:

  • 查看archivebox.io,它是一个开源、自托管的工具,可创建本地、静态、可浏览的网站 HTML 克隆(它保存 HTML、JS、媒体文件、PDF、屏幕截图、静态资产等等)。

标签: html web-crawler archive


【解决方案1】:

对于 OS X 用户,我发现找到的 siteucker 应用程序 here 运行良好,无需配置任何东西,但它跟随链接的深度。

【讨论】:

  • sitesucker.us 网站自 2018 年 1 月起无法加载。
  • 再次工作,但将 url 更改为 sitesucker.us 重定向到作者的开发网站 ricks-apps.com 的位置
【解决方案2】:

你可以使用wget:

wget -m -k -K -E http://url/of/web/site

【讨论】:

  • 从 --help 中,我可以看到其余部分是做什么的,但标志 K(大写)和 E 是做什么的?
  • 不要忘记使用 -p 开关来获取图像和其他嵌入对象。 (-E 用于转换为html扩展名。-K 用于备份扩展名为.orig 的原始文件)
  • 更长但不那么神秘的版本:wget --mirror --convert-links --backup-converted --adjust-extension http://url/of/web/site
  • 对我来说这只是获取 index.html
  • 是的,对我来说也是,它只检索 index.html。我试图从本地检索的 squarespace 站点不断给我错误 429“请求过多”。 :( 我有事件设置速率限制并等待。
【解决方案3】:

hartatorWayback Machine Downloader 简单快捷。

通过 Ruby 安装,然后使用来自 Internet Archive 的所需域和可选时间戳运行。

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000

【讨论】:

    【解决方案4】:

    如果您的客户因合规问题而归档,您需要确保内容可以通过身份验证。列出的选项适合简单查看,但它们在法律上是不可接受的。在这种情况下,您正在寻找时间戳和数字签名。如果你自己做会复杂得多。我建议使用PageFreezer 之类的服务。

    【讨论】:

      【解决方案5】:

      我已经使用 HTTrack 好几年了。它可以处理所有页面间链接等。我唯一的抱怨是我还没有找到一个很好的方法来很好地将它限制在一个子站点上。例如,如果有一个网站 www.foo.com/steve 我想存档,它可能会跟随指向 www.foo.com/rowe 的链接并将其存档。否则很棒。高度可配置且可靠。

      【讨论】:

        【解决方案6】:

        在 Windows 中,您可以查看 HTTrack。它非常可配置,允许您设置下载速度。但是您可以将它指向一个网站并运行它,而无需任何配置。

        根据我的经验,它是一个非常好的工具并且运行良好。我喜欢 HTTrack 的一些地方是:

        • 开源许可证
        • 恢复停止的下载
        • 可以更新现有存档
        • 您可以在下载时将其配置为非攻击性,这样就不会浪费您的带宽和网站的带宽。

        【讨论】:

        • httrack 也适用于 linux。
        • 它也存在于 Mac - brew install httrack
        【解决方案7】:

        wget -r -k

        ... 并调查其余选项。我希望您已遵循以下准则:http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html,因此您的所有资源在 GET 请求时都是安全的。

        【讨论】:

          【解决方案8】:

          我在 OSX 上使用 Blue Crab,在 Windows 上使用 WebCopier

          【讨论】:

          • Blue Crab 今天是一个非常该死的崩溃应用。
          【解决方案9】:

          我只使用:wget -m <url>

          【讨论】:

          • 这只会获取主页,而不是整个网站。
          猜你喜欢
          • 1970-01-01
          • 2011-05-15
          • 2013-05-25
          • 1970-01-01
          • 2019-11-07
          • 1970-01-01
          • 2015-03-26
          • 2021-12-11
          • 2019-06-13
          相关资源
          最近更新 更多