绕过 Cloudflare Scrapeshield答案

【问题标题】：Bypassing Cloudflare Scrapeshield绕过 Cloudflare Scrapeshield
【发布时间】：2014-01-22 18:18:00
【问题描述】：

我正在做一个网页抓取项目，我遇到了 cloudflare scrapeshield 的问题。有谁知道如何解决它？我正在使用 selenium webdriver，它被 scrapeshield 重定向到一些光速页面。在 Firefox 之上使用 python 构建。浏览通常不会导致它重定向。 webdriver 与普通浏览器有什么不同吗？

【问题讨论】：

嘘，咝咝作响：寻求帮助以违背内容所有者的意愿。

标签： python selenium web-scraping cloudflare

【解决方案1】：

看，scrapeshield 所做的是检查您是否使用的是真正的浏览器，它本质上是检查您的浏览器中是否存在某些错误。假设 Chrome 无法处理 IFrame 如果同时有一个 303 error 在行中，某些 Web 浏览器对不同测试的反应不同，所以 webdriver 不能对这些做出反应，导致系统说“我们有入侵者，换页！”。我可能是正确的，但不是 100% 肯定......

更多信息来源：

我在 Defcon 上找到了大部分关于 Web 嗅探器并阻止它们在服务器上获取正确漏洞信息的信息，他也在 PHP 中制作了一个 Web 浏览器标识符。

【讨论】：

你还记得演讲或演讲者的名字吗？这是今年的defcon吗？我知道 defcon 把他们的大部分演讲都放在了 youtube 上，所以我也许能找到它。非常感谢。
我在 youtube 上找到了它：youtu.be/I3pNLB3Cq24 希望该链接有效，但它有点关于通过网络浏览器检测对脚本小子和扫描仪进行防御性操作。