【发布时间】:2016-01-05 15:36:44
【问题描述】:
我正在刮这种页面的表格:
http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/
有一个表有几个页面,其更改是通过 XMLHttpRequest 进行的,检查页面我可以获取此请求的 te url
但是我不能用 scrapy 抓取这个网址
当我尝试时:
scrapy shell http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc
我没有得到响应,如何抓取这些数据?
【问题讨论】:
-
带有
""的环绕网址 -
它有效,为什么这个页面需要使用“”,而不是原始页面trulia.com/school-district/CA-San_Francisco_County/…?你能在回答结束问题时解释一下吗?
-
因为第二个 url 包含
&也被 shell 识别以运行另一个进程。 -
@LuisRamonRamirezRodriguez 考虑通过接受社区 wiki 来结束这个问题。
标签: python web-scraping scrapy