【问题标题】:Archived web content without going to the website无需访问网站即可存档网页内容
【发布时间】:2012-11-18 11:08:19
【问题描述】:

我想在不访问实际网站的情况下获取网络数据。

http://archive.org/web/web.php 是一个保存网站快照的例子。问题在于数据已经过时(5-6 个月)。

我们是否有任何其他存档存储可以找到最近的 html 内容?

谢谢

【问题讨论】:

  • 查看 archivebox.io,它可能会有所帮助,因为它会为您提供的网站创建本地、静态、可浏览的 HTML 快照(它保存 HTML、JS、媒体文件、PDF、屏幕截图、静态资产等)。

标签: open-source html-content-extraction webarchive


【解决方案1】:

你想卷曲网站吗? 你可以使用 php 来 cURL 一些网页:
http://php.net/manual/en/book.curl.php

或者您可以在 Unix 中使用命令、wget 或 curl:
http://linux.about.com/od/commands/l/blcmdl1_curl.htm

【讨论】:

  • 许多网站在多个 'wget' 后被阻止。我不认为 wget 将有助于进行广泛的调用。
  • 谢谢,我觉得curl也可以在unix命令行中使用,更新了。 :)
猜你喜欢
  • 1970-01-01
  • 2012-07-07
  • 1970-01-01
  • 1970-01-01
  • 2013-11-29
  • 1970-01-01
  • 1970-01-01
  • 2012-03-27
  • 1970-01-01
相关资源
最近更新 更多