【发布时间】:2012-06-26 21:10:07
【问题描述】:
我想阻止 PicScout Web Robot 访问我的网站。我已经读到它的行为不像一个“好”的机器人,那么我应该怎么做呢?
请注意:我使用托管 CMS。我无权访问服务器端脚本。我不介意包含服务器端脚本的答案,但我正在寻找一种非服务器端的方法来执行此操作。
【问题讨论】:
我想阻止 PicScout Web Robot 访问我的网站。我已经读到它的行为不像一个“好”的机器人,那么我应该怎么做呢?
请注意:我使用托管 CMS。我无权访问服务器端脚本。我不介意包含服务器端脚本的答案,但我正在寻找一种非服务器端的方法来执行此操作。
【问题讨论】:
PicScout 是版权验证机器人,而不是搜索引擎蜘蛛。因此,它们的行为不像“好”机器人也许是可以理解的。他们更像是一家私人保安公司。另请注意,互联网上并没有要求他们这样做:robots.txt 是一种约定,而不是规则。
有人研究过如何停止或减慢 PicScout。一个简单的谷歌搜索将有很长的路要走。 This 是一个稍微过时的例子。但是,所有建议都是 .htaccess 配置调整,听起来您可能无法访问。
【讨论】:
.htaccess - 我理解 PicScout 的意义,但是它会占用(有时是大量的)带宽。我没有无限带宽,坦率地说,PicScout 使用它的一些技术是不道德的,并且违反了我的网站(和许多其他网站)的服务条款。
添加到 robots.txt
# Block PicScout Crawler from crawling site
User-agent: PicScout
Disallow: /
【讨论】: