【问题标题】:How to Block PicScout Bot如何阻止 PicScout 机器人
【发布时间】:2012-06-26 21:10:07
【问题描述】:

我想阻止 PicScout Web Robot 访问我的网站。我已经读到它的行为不像一个“好”的机器人,那么我应该怎么做呢?

请注意:我使用托管 CMS。我无权访问服务器端脚本。我不介意包含服务器端脚本的答案,但我正在寻找一种非服务器端的方法来执行此操作。

【问题讨论】:

    标签: bots robot


    【解决方案1】:

    PicScout 是版权验证机器人,而不是搜索引擎蜘蛛。因此,它们的行为不像“好”机器人也许是可以理解的。他们更像是一家私人保安公司。另请注意,互联网上并没有要求他们这样做:robots.txt 是一种约定,而不是规则。

    有人研究过如何停止或减慢 PicScout。一个简单的谷歌搜索将有很长的路要走。 This 是一个稍微过时的例子。但是,所有建议都是 .htaccess 配置调整,听起来您可能无法访问。

    【讨论】:

    • 感谢您的信息,是的,我无法访问.htaccess - 我理解 PicScout 的意义,但是它会占用(有时是大量的)带宽。我没有无限带宽,坦率地说,PicScout 使用它的一些技术是不道德的,并且违反了我的网站(和许多其他网站)的服务条款。
    • 我完全理解你的立场,我也不是要为 PicScout 辩护,而且我也确信 Stack Overflow 并不是真正适合讨论 PicScout 正在做什么公平或合法。我只是想说明为什么它们不像“好”机器人。如果无法访问 .htaccess 或较低级别的东西(ip-tables 等),您可能自己运气不好。但是,您可以考虑与托管的 CMS 核实,看看他们是否有解决方案来限制您的带宽的过多用户。
    • 我同意 S.O.不是讨论这个的地方,但我敢打赌这将是一场有趣的辩论 => 感谢您的信息,我会检查我的 CMS。
    【解决方案2】:

    添加到 robots.txt

    # Block PicScout Crawler from crawling site 
    User-agent: PicScout
    Disallow: /
    

    【讨论】:

    猜你喜欢
    • 2020-02-09
    • 1970-01-01
    • 2017-12-05
    • 2021-04-15
    • 2021-04-14
    • 1970-01-01
    • 2014-10-05
    • 1970-01-01
    • 2021-10-02
    相关资源
    最近更新 更多