无需访问网站即可存档网页内容

【问题标题】：Archived web content without going to the website无需访问网站即可存档网页内容
【发布时间】：2012-11-18 11:08:19
【问题描述】：

我想在不访问实际网站的情况下获取网络数据。

http://archive.org/web/web.php 是一个保存网站快照的例子。问题在于数据已经过时（5-6 个月）。

我们是否有任何其他存档存储可以找到最近的 html 内容？

谢谢

【问题讨论】：

查看 archivebox.io，它可能会有所帮助，因为它会为您提供的网站创建本地、静态、可浏览的 HTML 快照（它保存 HTML、JS、媒体文件、PDF、屏幕截图、静态资产等）。

标签： open-source html-content-extraction webarchive

【解决方案1】：

你想卷曲网站吗？你可以使用 php 来 cURL 一些网页：
http://php.net/manual/en/book.curl.php

或者您可以在 Unix 中使用命令、wget 或 curl：
http://linux.about.com/od/commands/l/blcmdl1_curl.htm

【讨论】：

许多网站在多个 'wget' 后被阻止。我不认为 wget 将有助于进行广泛的调用。
谢谢，我觉得curl也可以在unix命令行中使用，更新了。 :)

猜你喜欢

1970-01-01
2012-07-07
1970-01-01
1970-01-01
2013-11-29
1970-01-01
1970-01-01
2012-03-27
1970-01-01

相关资源

下载 2021-06-05
下载 2023-03-28
下载 2022-12-05
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode