【问题标题】:Stop web.archive.org to save the site pages停止 web.archive.org 以保存网站页面
【发布时间】:2014-10-13 15:24:16
【问题描述】:

我尝试访问以前的 facebook.com 网页。 该站点向我显示了一个错误,即由于站点 robots.txt/ 而无法保存页面

谁能说出 robots.txt 中的哪些语句使 web.archive.org 无法访问该网站 我猜这是因为这里提到的#permission 声明 (http://facebook.com/robots.txt)

我还有其他方法可以为我的网站做这件事吗?

我也不希望 woorank.com 或 builtwith.com 分析我的网站。

注意:如果我在 robots.txt 中添加一些语句以实现上述结果,搜索引擎机器人在抓取我的网站并将其编入索引时应该不会遇到问题。

【问题讨论】:

    标签: robots.txt


    【解决方案1】:

    Internet Archive (archive.org) 爬虫使用用户代理值ia_archiver(请参阅their documentation)。

    因此,如果您想在 robots.txt 中定位此机器人,请使用

    User-agent: ia_archiver
    

    这正是what Facebook does in its robots.txt

    User-agent: ia_archiver
    Allow: /about/privacy
    Allow: /full_data_use_policy
    Allow: /legal/terms
    Allow: /policy.php
    Disallow: /
    

    【讨论】:

    • 谢谢 unor,woorank.com 和 builtwith.com 有什么解决方案
    • @Krill:如果您想知道他们的机器人是否支持 robots.txt,您应该查阅他们的文档或寻求他们的支持。如果不成功,您可能想在Webmasters 上提问(但是,请先检查此类问题是否在该主题中)。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-11-19
    • 2017-04-18
    • 1970-01-01
    • 2015-11-06
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多