【发布时间】:2019-11-07 12:44:27
【问题描述】:
我正在使用 scrapy-splash http://www.starcitygames.com/buylist/ 抓取以下网页,我必须登录该网页才能获取我需要的数据。这很好,但为了获取我需要单击显示按钮的数据,以便我可以抓取该数据,我需要的数据在单击按钮之前无法访问。我已经得到了一个答案,告诉我我不能简单地单击显示按钮并抓取显示的数据,我需要抓取与该信息关联的 JSON 网页,但我担心抓取 JSON 会变成红色标记给网站的所有者,因为大多数人不会打开 JSON 数据页面,人类需要几分钟才能找到它,而计算机会快得多。所以我想我的问题是,无论如何要刮掉我点击显示的网页并从那里开始,还是我别无选择,只能刮掉 JSON 页面?这是我到目前为止所得到的......但它没有点击按钮。
import scrapy
from ..items import NameItem
class LoginSpider(scrapy.Spider):
name = "LoginSpider"
start_urls = ["http://www.starcitygames.com/buylist/"]
def parse(self, response):
return scrapy.FormRequest.from_response(
response,
formcss='#existing_users form',
formdata={'ex_usr_email': 'abc@example.com', 'ex_usr_pass': 'password'},
callback=self.after_login
)
def after_login(self, response):
item = NameItem()
display_button = response.xpath('//a[contains(., "Display>>")]/@href').get()
yield response.follow(display_button, self.parse)
item["Name"] = response.css("div.bl-result-title::text").get()
return item
【问题讨论】:
-
如果您对 json 响应不感兴趣,请使用任何浏览器模拟器(如 selenium)单击该按钮并按照您在该网页中看到的方式解析结果。 Splash 可能是最好的选择,但我还不熟悉,所以我不能肯定地告诉你。
-
我在您的代码中的任何地方都没有看到飞溅?您提到了 splash 但没有在任何地方使用它?如果你关注blog.scrapinghub.com/2015/03/02/…的文章,你会发现你需要的是一个非常简单的案例。唯一的问题是您使用的是普通的 scrapy 请求对象而不是 SplashRequest 对象
标签: python web-scraping scrapy splash-screen scrapy-splash