【发布时间】:2014-12-24 08:57:28
【问题描述】:
我正在为一个网站编写 scraper。不管发生了什么奇怪的事情,它并没有访问我提供给他的 URL。而是访问网站的基本 url。
我在互联网上搜索并知道,scrapy 会忽略 # 之后的 URL,我需要识别正在发送的 Ajax 请求并模仿它。
但是问题是。 Ajax 请求的响应是 json 响应。它不是 html 内容。请有人帮我处理一下。
下面是网址
https://www.buildersshow.com/Search/Exhibitors.aspx#showID=11&state=160&tabname=name
【问题讨论】:
-
不仅仅是 Scrapy,
#之后的东西永远不会到达服务器,它总是在客户端处理。处理 json 响应应该比从 HTML 中抓取更容易,您只需要执行data = json.loads(response.body)或类似的操作。
标签: scrapy