【问题标题】:How to Stop bad crawler from crawling如何阻止不良爬虫爬网
【发布时间】:2016-01-25 13:48:42
【问题描述】:

所以,我有一个 eshop (php),并注意到一些竞争对手总是改变他们的价格以低于我的价格。我认为他们正在抓取我的网站以获取价格。有没有办法阻止它?

我认为解决方案之一是阻止爬虫IP,但我不知道它是哪个IP。

如果请求太多,我可以阻止它吗?

【问题讨论】:

  • 例如使用 GoAccess 分析您的网络日志,然后向爬虫抛出 404 :)
  • 您可以尝试通过无效的用户代理进行阻止,但这是一场失败的战斗。任何 Web 客户端都可以更改用户代理。另外,是什么让您认为他们在抓取您的网站?
  • 只需检查您的访问日志 - 任何抓取活动都应该很容易发现。然后坏相关的IP。然而,真正的问题是商业模式,而不是编程模式。
  • 爬取竞争对手的网站作为回报:)

标签: php web-crawler scrapy


【解决方案1】:

考虑为您的网站启用 reCAPTCHA,例如https://www.google.com/recaptcha/intro/index.html

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-06-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多