网络爬虫和机器人如何停止访问网站/webURL？答案

【问题标题】：How websites/webURL's being stopped visiting by web crawler and bots?网络爬虫和机器人如何停止访问网站/webURL？
【发布时间】：2014-10-06 11:13:53
【问题描述】：

我有一个网站，网络爬虫机器人多次访问该网站。我想摆脱它。请建议我可能的解决方案，以避免我的网站被机器人访问。

提前致谢！

【问题讨论】：

标签： web-crawler user-agent robots.txt

【解决方案1】：

如果您的网站是公开的，那么您的选择是有限的。以下是一些建议：

最明显的：用密码保护您的网站。这对于公共网站可能不是最实用的，但可以保证有效。
为您的网站定义 robots.txt 规则。爬虫没有义务遵守这些规则，但友好的（希望其中大多数）通常遵守 robots.txt。
如果这些机器人因为与您的网站不合拍（比如访问速度太快）而惹恼了您，还可以选择检测和阻止他们的 IP。这只有在它们没有从不同的 IP 地址开始抓取的情况下才有效。
希望访问您网站的网络爬虫机器人通过不同的 HTTP 请求用户代理值正确识别自己。您可以为不需要的用户代理阻止您的页面。 robots.txt 可以做到这一点，但这里我说的是让网络服务器检测到它并且根本不呈现页面或返回错误。

您没有说明为什么要阻止他们。这个问题的答案可能会影响你采取的方法。例如，如果您想将敏感数据保留给选定的一组人，那么密码保护可能是最好的方法，而不是试图永远追捕机器人。如果这是一个站点性能问题，请为您的站点考虑一个更强大的主机。希望以上建议中的一项或多项可以为您完成这项工作。

【讨论】：

2-3条回复你的回复（因为回复太长了）
关于网站，它是一个应用程序，也是我的大学项目，首先我会从你的建议开始，1.我无法添加密码，因为我的应用程序不允许我给予密码认证。 2.关于robot.txt规则，只有一些好的爬虫/机器人会遵守规则。坏机器人很容易否认这条规则。 3. 网站也不断被机器人攻击。关于阻止IP，我想问一下bot何时开始使用代理IP地址会发生什么，根据事实和分析，IP也会定期更改。
4.谈到用户代理，我们可以在一定程度上依赖 userAgents，但不能完全依赖。IE explore 允许我们在请求网页时创建自己定义的用户代理。我的网络应用程序是社交应用程序，它定期在社交媒体上发布 cmets 和页面链接，然后我检查来自社交媒体的推荐流量，从那里我得到机器人/爬虫攻击我的应用程序，我想停止。影响页面加载计数急剧增加。根据这种情况，您是否需要申请任何解决方案/逻辑。谢谢。
托管在功能更强大的服务器上不是您的选择吗？除非我们谈论的是拒绝服务攻击，否则您的应用程序应该能够毫无问题地处理机器人。如果您可以通过 IP 识别机器人，请检查谁拥有该 IP，并与他们核实您是否可以被排除在他们的抓取之外。另外，如果它是您的应用程序，为什么不能添加身份验证？它不必是浏览器身份验证，它可以是基于表单的。如果问题在于机器人读取您的内容，您可以决定使用带有 Ajax 的 javascript 技巧来呈现它，这样机器人就很难获取您的内容。
另外，除非我看错了，否则我看不到您为什么要阻止它们的解释。如果仅仅是因为它在您的统计数据中产生的噪音，您可以查看您的社交媒体网站是否可以排除这些，或者在您的第一次回复中应用我的一些建议，您将摆脱其中的大部分（如果不是全部）。