如何阻止不良爬虫爬网

【问题标题】：How to Stop bad crawler from crawling如何阻止不良爬虫爬网
【发布时间】：2016-01-25 13:48:42
【问题描述】：

所以，我有一个 eshop (php)，并注意到一些竞争对手总是改变他们的价格以低于我的价格。我认为他们正在抓取我的网站以获取价格。有没有办法阻止它？

我认为解决方案之一是阻止爬虫IP，但我不知道它是哪个IP。

如果请求太多，我可以阻止它吗？

【问题讨论】：

例如使用 GoAccess 分析您的网络日志，然后向爬虫抛出 404 :)
您可以尝试通过无效的用户代理进行阻止，但这是一场失败的战斗。任何 Web 客户端都可以更改用户代理。另外，是什么让您认为他们在抓取您的网站？
只需检查您的访问日志 - 任何抓取活动都应该很容易发现。然后坏相关的IP。然而，真正的问题是商业模式，而不是编程模式。
爬取竞争对手的网站作为回报:)
Detecting 'stealth' web-crawlers的可能重复

标签： php web-crawler scrapy

【解决方案1】：

考虑为您的网站启用 reCAPTCHA，例如https://www.google.com/recaptcha/intro/index.html

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2019-06-24
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-05
下载 2021-06-05
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode