【发布时间】:2016-01-25 13:48:42
【问题描述】:
所以,我有一个 eshop (php),并注意到一些竞争对手总是改变他们的价格以低于我的价格。我认为他们正在抓取我的网站以获取价格。有没有办法阻止它?
我认为解决方案之一是阻止爬虫IP,但我不知道它是哪个IP。
如果请求太多,我可以阻止它吗?
【问题讨论】:
-
例如使用 GoAccess 分析您的网络日志,然后向爬虫抛出 404 :)
-
您可以尝试通过无效的用户代理进行阻止,但这是一场失败的战斗。任何 Web 客户端都可以更改用户代理。另外,是什么让您认为他们在抓取您的网站?
-
只需检查您的访问日志 - 任何抓取活动都应该很容易发现。然后坏相关的IP。然而,真正的问题是商业模式,而不是编程模式。
-
爬取竞争对手的网站作为回报:)
标签: php web-crawler scrapy