【发布时间】:2020-01-13 17:11:29
【问题描述】:
使用 python scrapy 我可以抓取单个静态网址,但如何抓取动态网址? 喜欢https://www.britannica.com/place/Mumbai,https://www.britannica.com/place/Pune 一样明智。
单个静态页面的工作代码
import scrapy
class GetTestSpider(scrapy.Spider):
name = "testspeder"
start_urls = ["https://www.britannica.com/place/Mumbai"]
def parse(self,response):
"""Function to process search results page"""
for site in response.xpath("//div[@class='infinite-pagination-container container']"):
item = {
'city': site.xpath(".//h1/text()").extract_first(default='').strip(),
'writtenby': site.xpath(".//div[@class='md-byline']/div[@class='written-by']/span/text()").extract_first(default='').strip(),
'alternativename': site.xpath(".//div[@class='md-alternate-titles']/text()").extract_first(default='').strip(),
}
yield item
【问题讨论】:
-
您的代码可以很好地处理多个地点条目,您还想实现什么?
-
@chrisckwong821,请检查更新的问题
-
@Gallaecio,根据上面的教程我创建了一个demo。
-
什么不起作用?到目前为止,您尝试过什么来克服它?