【发布时间】:2021-04-21 14:01:34
【问题描述】:
我正在做一个项目,需要抓取以下网址的数据:https://www.funda.nl/objectinsights/getdata/5628496/
url的最后一部分代表一个对象的ID。在浏览器中打开链接确实有效,但有时会返回 404 错误。在python中使用scrapy shell时也是如此,有时我可以刮掉url,有时我不能。
当我设法打开网址(没有 404 错误)时,我去检查 > 网络。但我没有足够的经验来理解这些信息。有人知道修复吗?或此主题的其他信息?
您可以尝试的额外网址:
https://www.funda.nl/objectinsights/getdata/5819260/
https://www.funda.nl/objectinsights/getdata/5819578/
https://www.funda.nl/objectinsights/getdata/5819237/
https://www.funda.nl/objectinsights/getdata/5819359/
https://www.funda.nl/objectinsights/getdata/5819371/
https://www.funda.nl/objectinsights/getdata/5819386/
【问题讨论】:
标签: python scrapy http-status-code-404