在 Wayback 机器上恢复旧网站 [关闭]答案

【问题标题】：Recover old website off waybackmachine [closed]在 Wayback 机器上恢复旧网站 [关闭]
【发布时间】：2023-04-03 17:35:01
【问题描述】：

有没有办法从 waybackmachine 恢复整个网站？

我有一个旧网站已存档，但不再有网站文件可以再次恢复它。有没有办法恢复旧数据，以便找回丢失已久的文件？

【问题讨论】：

你所说的“网站文件”是什么意思 - 只是 html？如果是，那么您当然可以直接访问该网页并通过浏览器从那里下载源代码。
是的，html、css、图像和可能的 php 文件。这有多个带有图像和自定义 css 的页面。
我遇到了同样的问题，我最终编写了一个 gem。安装：gem install wayback_machine_downloader 然后使用您要检索的网站的基本 URL 作为参数运行它：wayback_machine_downloader http://example.com 更多信息：github.com/hartator/wayback_machine_downloader

【解决方案1】：

wget 是一个很好的镜像整个站点的工具，如果你在 Windows 上，你可以使用Cygwin 来安装它。以下命令将镜像一个站点：wget -m domain.name

wget命令示例，不会升到父目录（-np），忽略robot.txt（-e robots=off），使用cdn域（--domains=domain.name），镜像一个url（要镜像的url ，http://an.example.com）。总之，你得到：

 wget -np -e robots=off --mirror --domains=staticweb.archive.org,web.archive.org http://web.archive.org/web/19970708161549/http://www.google.com/

如果您正在处理https 和自签名证书，您可以使用--no-check-certificate 禁用证书检查。 wget 帮助是查看可能选项的最佳位置。

【讨论】：

感谢您的资源，非常感谢。我有一个 mac 和一个名为 site sinker 的应用程序，它似乎做同样的事情。问题是通过完整的 archive.org 网址下载。
+ 1 以获得阻塞递归抓取的帮助！这应该是批准的答案。
-np 有助于不要脱离指定的日期路径。
@mguymon 但是有没有办法用那个命令下载css和照片？
@jcarlosweb 你需要删除-np，然后限制递归是个好主意，例如-l 3