【发布时间】:2017-04-15 07:11:37
【问题描述】:
我编写了以下爬虫,用于抓取 webmd 网站以供患者评论
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class MySpider(BaseSpider):
name = "webmd"
allowed_domains = ["webmd.com"]
start_urls = ["http://www.webmd.com/drugs/drugreview-92884-Boniva"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//p")
title = titles.select("//p[contains(@class, 'comment')and contains(@style, 'display:none')]/text()").extract()
print(title)
执行此代码给了我想要的输出,但有很多重复,即相同的 cmets 至少重复 10 次。 帮我解决这个问题。
【问题讨论】:
标签: python xpath scrapy web-crawler scrapy-spider