【发布时间】:2013-04-30 15:18:16
【问题描述】:
我正在为我的网站构建一个 bot-trap / crawler-trap:
页面某处有一个隐藏链接,普通用户看不到,但机器人可以看到。链接也在robots.txt中注明,所以Google不会掉入陷阱。
当机器人打开隐藏页面时,IP 会自动在MySQL 中标记为红色。
我的问题是:
- 当新 IP 被标记时,哪种方式更好地阻止它:重新生成
.htaccess文件,并将新 IP 添加到其中,以便网络服务器本身进行阻止。 - 不要乱用
.htaccess,而是每次有人加载页面时从MySQL查找IP表,然后在PHP中决定如何处理用户。
【问题讨论】:
-
那些使用屏幕阅读器或基于文本的浏览器的人呢?他们会看到链接并可能落入您的陷阱吗?
-
链接标记为“display: none;”。对于普通用户,我指的是除了谷歌、雅虎和更大的搜索引擎之外的所有人,不是机器人。
-
请记住,某些浏览器(包括我列出的类别中的许多浏览器)会忽略 CSS 样式或仅使用其中的一部分。
标签: php mysql blocking web-crawler