Scrapy 获取 javascript 的空白页答案

【问题标题】：Scrapy getting blank pages of javascriptScrapy 获取 javascript 的空白页
【发布时间】：2015-09-24 11:00:48
【问题描述】：

当尝试使用 scrapy 查看或抓取 http://www.kw.com/kw/agent/johndoucette（或该域上的大多数页面）时，我返回一个空白页面。查看页面源代码会返回一堆隐藏的 javascript，但仅此而已。

我尝试了许多不同的用户代理、代理、无代理、设置等（例如 scrapy view http://www.kw.com/kw/agent/johndoucette -s USER_AGENT="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/4302357130 Safari/537.36" 来自 here）这不是我的设置 - 它可以从新的 scrapy shell view(response) 命令重现安装。我只是不知道如何忽略该脚本。

有没有办法解决这个问题？

【问题讨论】：

标签： javascript python django scrapy

【解决方案1】：

您收到此信息是因为该网站是通过“Incapsula”提供的，它在允许您继续访问该页面之前使用 Javascript 测试。由于 Scrapy 不处理 Javascript，因此您不会再进一步。

要查看发生了什么，请打开 Chrome，转到隐私，然后禁用 cookie 和 Javascript。

该网站正在积极尝试阻止抓取，这清楚地表明他们不想被抓取。

【讨论】：

所以不是需要跳过javascript，而是需要与之交互？这似乎很奇怪 - 对于所有明显不希望被抓取或索引的主要网站，这似乎是一个非常简单的解决方法。
可能是这样，或者可能是报告的浏览器功能与应该存在的浏览器功能的组合。这可能是它发送标头的方式。可能有很多事情，因为我真的对 Incapsula 不太熟悉。