Scrapy 和 XPath 从亚马逊提取评论答案

【问题标题】：Scrapy and XPath to extract comments from AmazonScrapy 和 XPath 从亚马逊提取评论
【发布时间】：2012-04-27 07:50:27
【问题描述】：

我对 python 和 scrapy 比较陌生，我需要一些关于我正在尝试解决的问题的帮助。我正在尝试使用 scrapy 和 XPath 抓取亚马逊并提取特定产品的用户 cmets。我想问是否有比我现有的更优雅的解决方案。

假设我想从this address 获取cmets。 cmets页面的结构看起来对提取不是很友好（使用firebug可以看到只有评论区周围没有特定的标签）。目前我正在使用以下选择器：hxs.select('//div/text()').extract()，但您可以想象它会创建大量垃圾数据"\n\n\n\n\n" 等。有没有更优雅的方法来编写我的选择器来改善我的结果。

【问题讨论】：

试试这个 xpath .//*[@id='productReviews']/tbody/tr/td[1]/*/text()
@RanRag xpath 不支持 tbody

标签： python xpath scrapy

【解决方案1】：

一种选择是关闭“此评论来自...”文本。像这样：

//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()

【讨论】：