【问题标题】:Scrapy Web Scraping return 405Scrapy Web Scraping 返回 405
【发布时间】:2019-05-03 10:36:07
【问题描述】:

我用python在Scrapy中做了一个简单的蜘蛛来从一些网站获取标题。我得到这个405错误,可以在一个网站的照片中看到,另一个很好,它返回200。你知道吗问题可能是什么?

https://postimg.cc/gallery/2pbx9j7wy/

我为这个问题搜索了很多,但我找不到它。如果您能给我一个完整的答案或只是一些链接,我将不胜感激。

谢谢!

这里链接的内容不同,因为我遇到了验证码...

【问题讨论】:

标签: web-scraping


【解决方案1】:

所以 Http 405 是不允许的方法。这是什么意思? 有一个简单的 GET 请求,当您在浏览器中键入 URL 时就会发生这种请求。还有 POST ,通常在提交表单时使用。在您的情况下,此错误的含义很可能是 URL 需要不同于 GET 的内容,并且鉴于这是某种验证码,它很可能需要 POST。查看 scrapy 文档中的 FormRequest 类,了解如何发出发布请求。

【讨论】:

  • 我不知道如何让它工作。你能根据我的代码给我一个例子吗?顺便说一句,我在这里:doc.scrapy.org/en/latest/topics/request-response.html
  • 我只是想像使用quotestoscrape 一样打印标题
  • 我也许能做到,但你必须让我以某种方式访问​​代码。只需要蜘蛛就足够了。
  • 我检查了这个 repo。首先,为什么需要硒?同样在 repo 中,我看不到任何关于 selenium 的配置。我不知道你想在那里做什么,但这是你试图通过的验证码,我打开了网站,它向我展示了谷歌验证码。这不是一件容易解决的事情。您可能想为此使用一些现成的服务,例如antigate.com。 Scrapy 只是一个用于获取 HTML 并从中提取数据的框架,传递验证码远远超出了它的范围。
  • 好的。非常感谢您的宝贵时间!现在我明白这不是微不足道的,因为我在谷歌上搜索了大约 20 个小时来寻找答案,但一无所获。
猜你喜欢
  • 2023-03-24
  • 1970-01-01
  • 2014-07-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-03-12
  • 1970-01-01
  • 2018-11-16
相关资源
最近更新 更多