【发布时间】:2014-06-08 07:21:31
【问题描述】:
我有一个包含大量产品和价格数据库的网站。
我一直在为价格而烦恼。
我想用<noscript> 标签来阻止它,但我能做的就是隐藏内容,机器人仍然能够抓取我的内容。
有没有办法运行 JS 测试以查看 js 是否被禁用(以检测机器人)并重定向这些请求,可能在黑名单中。
这样做会阻止谷歌浏览我的网站吗?
【问题讨论】:
-
您可以在没有
userAgent的情况下拒绝请求(但使用 cURL 您可以绕过它)或将 Google、Facebook、Twitter 机器人userAgent等列入白名单。 -
只要数据是公开的,就真的没有简单的自动化解决方案。始终可以重写机器人以绕过您的检查。
-
为什么不使用 htaccess 通过 IP 或位置来阻止机器人?
-
您可能想要使用一些身份验证或使用 cookie 跟踪用户
-
@VincentDecaux 他们只是改变了他们的 IP,它不会持续很长时间
标签: javascript php curl screen-scraping