之前爬了250,想爬所有的电影
Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+')), callback="parse_item"),
修改为
start_urls = ["https://movie.douban.com/subject/26611090/"]
rules = [
Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+'), restrict_xpaths='//*[@>,
callback="parse_item", follow=True),
]
提取 喜欢这部电影的人也喜欢  推荐的10部电影,这样应该不会出现太多电视剧。
问题:
https://movie.douban.com/subject/2074813 这种页面没有评分
解决,插入库之前判断。如果数据不符合格式,可传默认值0分等。或丢弃
1,如果存在了,就更新下分数和投票数据

最后爬到 https://movie.douban.com/subject/2127013 共 41924 行
2017-11-15 11:30:56 ERROR:Item 404:https://movie.douban.com/subject/2970103/?from=subject-page

相关文章:

  • 2021-11-18
  • 2021-12-17
  • 2022-12-23
  • 2021-07-29
  • 2021-06-28
  • 2021-06-22
猜你喜欢
  • 2021-11-25
  • 2021-07-09
  • 2021-11-18
  • 2021-10-08
  • 2022-12-23
  • 2021-07-16
  • 2021-07-18
相关资源
相似解决方案