【发布时间】:2011-07-26 06:43:58
【问题描述】:
我正在做一个scrapy项目来抓取http://58.com上的一些数据
我发现使用scrapy抓取时页面中缺少一些div。
我认为这可能与请求头有关,所以我将Firefox的用户代理复制到伪造的,只是发现它失败了。
可能是什么问题,我该如何解决?
我发现问题是网页使用ajax加载一些数据,我找不到这些数据。
【问题讨论】:
-
如果您使用
urllib2检索页面,是否会发生这种情况?另外,您可以尝试beautifulsoup进行抓取。虽然可能是该网站正在重新加载内容。 -
我会先使用 Firebug 或 wireshark 之类的工具来查看浏览器是如何加载页面的。
-
@enzo 请问“divs”是什么意思?是“DivX 格式”吗?
-
div 是指一些 div 元素。
-
@enzo 您如何观察到某些 div 丢失了?你如何检测缺失?如果scrapy不适合你的情况,为什么不使用正则表达式来找到你需要的东西,如果它仅限于找到一些特定的字符串而不必解析源代码,严格来说
标签: python web-crawler scrapy