【问题标题】:Scrapy site redirects to 404 after loadingScrapy网站加载后重定向到404
【发布时间】:2018-01-02 03:50:51
【问题描述】:

我正在尝试抓取一个时尚网站,但是,当我尝试从 scrapy shell 渲染我想要抓取的页面时,我会看到它首先加载页面,然后将其重定向到 404 页面。 这是我运行的命令

scrapy shell -s USER_AGENT='Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36' 'http://www.asos.com/search/circle%20skirt?currentpricerange=10-95&q=circle%20skirt&refine=attribute_900:1573'

我也尝试添加标题和 cookie,但似乎没有任何效果,页面一直重定向到 404。我该怎么办?

【问题讨论】:

  • 如果页面使用相对 url,那么当浏览器呈现它时,HTML 和 javascript 会尝试从您的计算机读取数据,但无法获取预期数据。但是如果你显示repsonse.body,那么你可能会看到不同的内容。
  • repsonse.body 可能有你需要的所有东西 - 所以在浏览器中手动打开 url 以查看 DevTool 中的所有标签。

标签: python scrapy web-crawler http-status-code-404 splash-screen


【解决方案1】:

得到了解决方案,正如 furas 所评论的那样,response.body 拥有我需要的所有东西,唯一的原因是 view(response) 无法正常工作,因为该网站需要加载 JS 内容并导致 404。感谢帮助弗拉斯

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-10-01
    • 1970-01-01
    • 1970-01-01
    • 2019-03-14
    • 2014-01-13
    相关资源
    最近更新 更多