【发布时间】:2008-12-21 22:25:16
【问题描述】:
情况:
- 内容受用户名/密码保护的网站(并非全部受控,因为他们可以是试用/测试用户)
- 由于用户名/密码的限制,普通的搜索引擎无法找到它
- 恶意用户仍然可以登录并将会话 cookie 传递给“wget -r”或其他方式。
问题是监控此类活动并对其做出响应的最佳解决方案是什么(考虑到网站政策是不允许抓取/抓取)
我能想到一些选择:
- 设置一些流量监控解决方案来限制给定用户/IP 的请求数。
- 与第一点相关:自动屏蔽部分用户代理
- (Evil :)) 设置一个隐藏链接,访问该链接时会注销用户并禁用他的帐户。 (可能普通用户不会访问它,因为他不会看到它来点击它,但机器人会抓取所有链接。)
对于第 1 点,您知道已经实施的良好解决方案吗?有什么经验吗?一个问题是,一些误报可能会出现在非常活跃但很人性化的情况下 用户。
对于第 3 点:你认为这真的很邪恶吗?或者您认为它有任何可能的问题吗?
也接受其他建议。
【问题讨论】:
-
对于需要抓取带有隐藏恶意链接的网站的人来说,请注意:使用可编写脚本的真实网络浏览器,如 Phantom。您的代码可以看到可见的链接,创建虚拟鼠标移动,作品。
标签: web-crawler screen-scraping monitoring