网站内容爬取答案

【问题标题】：Website content crawling网站内容爬取
【发布时间】：2011-02-19 06:04:40
【问题描述】：

我们在 IIS 6 Windows 2003 上托管了一个企业列表目录。我们的竞争对手抓取并窃取了我们的内容和客户。

我们已经尝试使用蜜罐 URL 和日志解析进行 IP 阻止，但没有取得多大成功。有谁知道我可以在我的网络服务器前面运行的网络设备或代理服务器来最大程度地减少这个问题？

非常感谢所有建议。

【问题讨论】：

【解决方案1】：

您可以尝试spider trap，但他们可以为此添加检查。

您也可以添加一个速率限制器，在达到一定速率后强制他们解决验证码，但您也可能会惹恼您的普通用户。

但实际上，您创建的任何东西都可能会适应和变通。你最好的可能就是 Developer Art 所说的，然后找个律师。

【讨论】：

【解决方案2】：

如果有很多页面数据，您可以监控访问者的 IP，并确保给定 IP 每天看到的页面不超过您页面的一小部分。

最终你想要的是一个矛盾：你确实希望人们将它下载到他们的计算机上（现在查看它）；但您不希望他们将其下载到他们的计算机上（以便稍后查看）。

【讨论】：