【问题标题】:Scrapy getting blank pages of javascriptScrapy 获取 javascript 的空白页
【发布时间】:2015-09-24 11:00:48
【问题描述】:

当尝试使用 scrapy 查看或抓取 http://www.kw.com/kw/agent/johndoucette(或该域上的大多数页面)时,我返回一个空白页面。查看页面源代码会返回一堆隐藏的 javascript,但仅此而已。

我尝试了许多不同的用户代理、代理、无代理、设置等(例如 scrapy view http://www.kw.com/kw/agent/johndoucette -s USER_AGENT="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/4302357130 Safari/537.36" 来自 here)这不是我的设置 - 它可以从新的 scrapy shell view(response) 命令重现安装。我只是不知道如何忽略该脚本。

有没有办法解决这个问题?

【问题讨论】:

    标签: javascript python django scrapy


    【解决方案1】:

    您收到此信息是因为该网站是通过“Incapsula”提供的,它在允许您继续访问该页面之前使用 Javascript 测试。由于 Scrapy 不处理 Javascript,因此您不会再进一步​​。

    要查看发生了什么,请打开 Chrome,转到隐私,然后禁用 cookie 和 Javascript。

    该网站正在积极尝试阻止抓取,这清楚地表明他们不想被抓取。

    【讨论】:

    • 所以不是需要跳过javascript,而是需要与之交互?这似乎很奇怪 - 对于所有明显不希望被抓取或索引的主要网站,这似乎是一个非常简单的解决方法。
    • 可能是这样,或者可能是报告的浏览器功能与应该存在的浏览器功能的组合。这可能是它发送标头的方式。可能有很多事情,因为我真的对 Incapsula 不太熟悉。
    猜你喜欢
    • 1970-01-01
    • 2011-11-14
    • 1970-01-01
    • 1970-01-01
    • 2015-09-20
    • 2012-02-15
    • 2016-11-12
    • 2017-01-12
    • 2019-08-24
    相关资源
    最近更新 更多