【发布时间】:2012-11-18 11:08:19
【问题描述】:
我想在不访问实际网站的情况下获取网络数据。
http://archive.org/web/web.php 是一个保存网站快照的例子。问题在于数据已经过时(5-6 个月)。
我们是否有任何其他存档存储可以找到最近的 html 内容?
谢谢
【问题讨论】:
-
查看 archivebox.io,它可能会有所帮助,因为它会为您提供的网站创建本地、静态、可浏览的 HTML 快照(它保存 HTML、JS、媒体文件、PDF、屏幕截图、静态资产等)。
标签: open-source html-content-extraction webarchive