【发布时间】:2021-03-29 00:18:30
【问题描述】:
我是 scrapy 的新手,并且一直在尝试开发一种可以抓取 Tripadvisor 待办事项页面的蜘蛛。 Trip advisor 使用偏移量对结果进行分页,所以我让它找到最后一页 num,乘以每页的结果数,并以 30 的步长在一个范围内循环。但是它只返回它应该返回的结果的一小部分,并且 get_details打印出 28 页中的 7 页。我相信正在发生的事情是随机页面上的 url 重定向。
Scrapy 在其他页面上记录此 301 重定向,并且它似乎正在重定向到第一页。我尝试禁用重定向,但没有奏效。
2021-03-28 18:46:38 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.tripadvisor.com/Attractions-g55229-Activities-a_allAttractions.true-Nashville_Davidson_County_Tennessee.html> from <GET https://www.tripadvisor.com/Attractions-g55229-Activities-a_allAttractions.true-oa90-Nashville_Davidson_County_Tennessee.html>
这是我的蜘蛛代码:
import scrapy
import re
class TripadvisorSpider(scrapy.Spider):
name = "tripadvisor"
start_urls = [
'https://www.tripadvisor.com/Attractions-g55229-Activities-a_allAttractions.true-oa{}-Nashville_Davidson_County_Tennessee.html'
]
def parse(self, response):
num_pages = int(response.css(
'._37Nr884k .DrjyGw-P.IT-ONkaj::text')[-1].get())
for offset in range(0, num_pages * 30, 30):
formatted_url = self.start_urls[0].format(offset)
yield scrapy.Request(formatted_url, callback=self.get_details)
def get_details(self, response):
print('url is ' + response.url)
for listing in response.css('div._19L437XW._1qhi5DVB.CO7bjfl5'):
yield {
'title': listing.css('._392swiRT ._1gpq3zsA._1zP41Z7X::text')[1].get(),
'category': listing.css('._392swiRT ._1fV2VpKV .DrjyGw-P._26S7gyB4._3SccQt-T::text').get(),
'rating': float(re.findall(r"[-+]?\d*\.\d+|\d+", listing.css('svg.zWXXYhVR::attr(title)').get())[0]),
'rating_count': float(listing.css('._392swiRT .DrjyGw-P._26S7gyB4._14_buatE._1dimhEoy::text').get().replace(',', '')),
'url': listing.css('._3W_31Rvp._1nUIPWja._17LAEUXp._2b3s5IMB a::attr(href)').get(),
'main_image': listing.css('._1BR0J4XD').attrib['src']
}
有没有办法让scrapy为每个页面工作?究竟是什么导致了这个问题?
【问题讨论】:
标签: python web-scraping scrapy web-crawler