【发布时间】:2010-08-01 13:08:47
【问题描述】:
朋友问我这个问题,我无法回答。
他问:我正在制作这个网站,您可以在其中存档您的网站...
它的工作原理是这样的,您输入您的网站,例如 something.com,然后我们的网站会抓取该网站上的内容(如图像),以及所有这些内容并将其上传到我们的网站。然后人们可以在 oursite.com/something.com 上查看该站点的精确副本,即使阻止 something.com 的服务器已关闭。
他怎么能这样? (php?) 有什么要求?
【问题讨论】:
-
“您可以将网站存档的网站”web.archive.org
-
如果你熟悉 php,有 Symfony2 组件,称为 WebCrawler 和 CssDom。 Symfony 的创建者已经整理了一个演示,展示了如何使用这些组件进行网络抓取。 github.com/fabpot/Goutte
标签: web-crawler archive