【发布时间】:2016-09-09 12:43:19
【问题描述】:
我正在使用scrapy。
我正在使用的网站有无限滚动。
该网站有很多帖子,但我只刮了 13 个。
剩下的帖子怎么刮?
这是我的代码:
class exampleSpider(scrapy.Spider):
name = "example"
#from_date = datetime.date.today() - datetime.timedelta(6*365/12)
allowed_domains = ["example.com"]
start_urls = [
"http://www.example.com/somethinghere/"
]
def parse(self, response):
for href in response.xpath("//*[@id='page-wrap']/div/div/div/section[2]/div/div/div/div[3]/ul/li/div/h1/a/@href"):
url = response.urljoin(href.extract())
yield scrapy.Request(url, callback=self.parse_dir_contents)
def parse_dir_contents(self, response):
#scrape contents code here
【问题讨论】:
标签: python web-scraping scrapy web-crawler sitemap