【问题标题】:Scrapy and XPath to extract comments from AmazonScrapy 和 XPath 从亚马逊提取评论
【发布时间】:2012-04-27 07:50:27
【问题描述】:

我对 python 和 scrapy 比较陌生,我需要一些关于我正在尝试解决的问题的帮助。 我正在尝试使用 scrapy 和 XPath 抓取亚马逊并提取特定产品的用户 cmets。 我想问是否有比我现有的更优雅的解决方案。

假设我想从this address 获取cmets。 cmets页面的结构看起来对提取不是很友好(使用firebug可以看到只有评论区周围没有特定的标签)。 目前我正在使用以下选择器:hxs.select('//div/text()').extract(),但您可以想象它会创建大量垃圾数据"\n\n\n\n\n" 等。有没有更优雅的方法来编写我的选择器来改善我的结果。

【问题讨论】:

  • 试试这个 xpath .//*[@id='productReviews']/tbody/tr/td[1]/*/text()
  • @RanRag xpath 不支持 tbody

标签: python xpath scrapy


【解决方案1】:

一种选择是关闭“此评论来自...”文本。像这样:

//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-07-07
    • 1970-01-01
    • 2017-07-28
    • 2013-07-22
    • 1970-01-01
    • 1970-01-01
    • 2020-01-26
    • 1970-01-01
    相关资源
    最近更新 更多