【问题标题】:Deal with XMLHttpRequest in scrapy在scrapy中处理XMLHttpRequest
【发布时间】:2016-01-05 15:36:44
【问题描述】:

我正在刮这种页面的表格:

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

有一个表有几个页面,其更改是通过 XMLHttpRequest 进行的,检查页面我可以获取此请求的 te url

http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc

但是我不能用 scrapy 抓取这个网址

当我尝试时:

scrapy shell http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc

我没有得到响应,如何抓取这些数据?

【问题讨论】:

  • 带有""的环绕网址
  • 它有效,为什么这个页面需要使用“”,而不是原始页面trulia.com/school-district/CA-San_Francisco_County/…?你能在回答结束问题时解释一下吗?
  • 因为第二个 url 包含 & 也被 shell 识别以运行另一个进程。
  • @LuisRamonRamirezRodriguez 考虑通过接受社区 wiki 来结束这个问题。

标签: python web-scraping scrapy


【解决方案1】:

[最初由 eLRuLL 在 cmets 中发表]

""包围你的url,因为第二个url包含&,shell也可以识别它来运行另一个进程。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多