【发布时间】:2012-08-24 14:39:25
【问题描述】:
我有一个价格比较网站。 您可以点击优惠链接,我会从商店获得 1 美元。
问题是:爬虫爬取整个网站。所以他们“点击链接”。 我怎样才能防止他们点击? Javascript 是一个糟糕的解决方案。
谢谢!
【问题讨论】:
-
如何创建一些模式并使用正则表达式检查以避免“点击”它们
-
理论上……但并不是所有的爬虫都知道这个“规则”。
-
你的意思是你自己的爬虫来爬取你的目标网站还是搜索引擎机器人?
-
您可以检查请求来自的用户代理,如果用户代理是已知浏览器,则仅处理后端。
-
@VitoNordloh 如果爬虫忽略了一些事情,你无能为力。你提出了正确的规则,他们打破了它们。解决这个问题的唯一方法是让您[可能手动]检测它们并阻止它们。
标签: php javascript web-crawler