【发布时间】:2012-05-28 14:40:44
【问题描述】:
是否可以防止网站被任何抓取工具抓取,但同时允许搜索引擎解析您的内容。
仅仅检查用户代理并不是最好的选择,因为它很容易模拟它们。
JavaScript 检查可能是(谷歌执行 JS)一个选项,但一个好的解析器也可以做到。
有什么想法吗?
【问题讨论】:
标签: web-scraping bots search-engine-bots
是否可以防止网站被任何抓取工具抓取,但同时允许搜索引擎解析您的内容。
仅仅检查用户代理并不是最好的选择,因为它很容易模拟它们。
JavaScript 检查可能是(谷歌执行 JS)一个选项,但一个好的解析器也可以做到。
有什么想法吗?
【问题讨论】:
标签: web-scraping bots search-engine-bots
使用DNS checking卢克! :)
Google 的帮助文章 Verifying Googlebot 中提供了相同的想法
【讨论】:
检查链接访问时间可能是可能的,换句话说,如果首页被点击,那么首页上的链接都被“快速”点击。
更简单的是,在页面中放置一些隐藏的链接;机器人会跟随,人们几乎不会。
【讨论】: