【发布时间】:2020-08-22 18:13:54
【问题描述】:
我有很多不同的抓取工具,但它们都在处理服务器渲染页面或解析来自 API 端点的响应。
但现在我有两个非常具体的网站要抓取:
首先。
单页,我们应该点击 seach 按钮来获取前 10 个项目。要获得接下来的 10 个项目 - 单击“下一步”按钮。 2-3 秒后,搜索部分中的数据将重新呈现。单击“下一步”时,我会从 vaadin 服务中获取未解析的虚拟数据。因此只能从呈现的 HTML 页面中解析数据。
第二个。
同一个页面,原理相同(点击搜索按钮获取初始化数据,点击下一步按钮加载新数据)。但另外我需要点击每个项目来获取所有数据来抓取(点击每个搜索结果项后,我从渲染的搜索结果+模式窗口中抓取一些数据)
问题 - 是否可以用 scrapy 和 splash 抓取此类网站?我知道硒,但它又重又慢,我需要其他解决方案。从来没有使用过飞溅,但如果我没记错的话,可以通过 lua 脚本模仿点击。..
【问题讨论】:
标签: web-scraping scrapy scrapy-splash