【问题标题】:Use Scrapy to get information from a website that generates data using java script使用 Scrapy 从使用 java 脚本生成数据的网站获取信息
【发布时间】:2016-07-26 15:51:14
【问题描述】:

我正在尝试使用 Scrapy 抓取网站,但是网站 URL 没有改变,页面是使用 java 脚本加载的。

这是我执行搜索之前网站和 URL 的外观:

这是我执行搜索后网站和 URL 的外观:

在这些条件下,我如何使用 Scrapy 从网站获取数据?

【问题讨论】:

  • 你必须找出用javascript发出的请求(也许你也可以用scrapy自己做),或者你必须使用像selenium这样的东西。我们推荐splash
  • 我可以使用浏览器查找正在发出的请求吗? @eLRuLL
  • 这就是 splash 和 selenium 所做的,它们模拟轻量级浏览器。
  • 添加 url 和你当前工作的蜘蛛

标签: python web-scraping scrapy scrapy-spider


【解决方案1】:
  • 您需要分析网站如何加载数据。 也许您可以阅读 URL 和 HTTP 标头。
  • 使用一些工具(如 POSTman)来模拟加载数据的过程。
  • 使用 scrapy 实现流程。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多