【发布时间】:2014-07-01 09:44:48
【问题描述】:
我想阻止 Crawler 抓取子域 tools.subdomain.com 我在 Internet 上找到了一个 Snippet,它显示以下 Rewrite Rule:
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]
我怎样才能设法阻止该子域上的那些爬虫,或者只允许当前最新的浏览器访问该子域?我想通过 .htaccess 来管理它,因为不是每个爬虫都接受 robots.txt。对于 robots.txt,我有以下重写条件。
RewriteCond %{HTTP_HOST} =testing.subdomain.com
RewriteRule ^robots\.txt$ /robots_testing.txt [L]
干杯
斯文
【问题讨论】:
标签: php apache .htaccess mod-rewrite web-crawler