【问题标题】:Recover old website off waybackmachine [closed]在 Wayback 机器上恢复旧网站 [关闭]
【发布时间】:2023-04-03 17:35:01
【问题描述】:

有没有办法从 waybackmachine 恢复整个网站?

我有一个旧网站已存档,但不再有网站文件可以再次恢复它。有没有办法恢复旧数据,以便找回丢失已久的文件?

【问题讨论】:

  • 你所说的“网站文件”是什么意思 - 只是 html?如果是,那么您当然可以直接访问该网页并通过浏览器从那里下载源代码。
  • 是的,html、css、图像和可能的 php 文件。这有多个带有图像和自定义 css 的页面。
  • 我遇到了同样的问题,我最终编写了一个 gem。安装:gem install wayback_machine_downloader 然后使用您要检索的网站的基本 URL 作为参数运行它:wayback_machine_downloader http://example.com 更多信息:github.com/hartator/wayback_machine_downloader

标签: archive data-recovery


【解决方案1】:

wget 是一个很好的镜像整个站点的工具,如果你在 Windows 上,你可以使用Cygwin 来安装它。以下命令将镜像一个站点:wget -m domain.name

来自 cmets 的更新:

wget命令示例,不会升到父目录(-np),忽略robot.txt(-e robots=off),使用cdn域(--domains=domain.name),镜像一个url(要镜像的url ,http://an.example.com)。总之,你得到:

 wget -np -e robots=off --mirror --domains=staticweb.archive.org,web.archive.org http://web.archive.org/web/19970708161549/http://www.google.com/

如果您正在处理https 和自签名证书,您可以使用--no-check-certificate 禁用证书检查。 wget 帮助是查看可能选项的最佳位置。

【讨论】:

  • 感谢您的资源,非常感谢。我有一个 mac 和一个名为 site sinker 的应用程序,它似乎做同样的事情。问题是通过完整的 archive.org 网址下载。
  • + 1 以获得阻塞递归抓取的帮助!这应该是批准的答案。
  • -np 有助于不要脱离指定的日期路径。
  • @mguymon 但是有没有办法用那个命令下载css和照片?
  • @jcarlosweb 你需要删除-np,然后限制递归是个好主意,例如-l 3
猜你喜欢
  • 2017-03-21
  • 1970-01-01
  • 2014-07-01
  • 1970-01-01
  • 1970-01-01
  • 2014-05-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多