【发布时间】:2012-04-27 07:50:27
【问题描述】:
我对 python 和 scrapy 比较陌生,我需要一些关于我正在尝试解决的问题的帮助。 我正在尝试使用 scrapy 和 XPath 抓取亚马逊并提取特定产品的用户 cmets。 我想问是否有比我现有的更优雅的解决方案。
假设我想从this address 获取cmets。
cmets页面的结构看起来对提取不是很友好(使用firebug可以看到只有评论区周围没有特定的标签)。
目前我正在使用以下选择器:hxs.select('//div/text()').extract(),但您可以想象它会创建大量垃圾数据"\n\n\n\n\n" 等。有没有更优雅的方法来编写我的选择器来改善我的结果。
【问题讨论】:
-
试试这个 xpath
.//*[@id='productReviews']/tbody/tr/td[1]/*/text() -
@RanRag xpath 不支持 tbody