scrapy爬取百度贴吧回复数、作者、标题

思路

百度贴吧里面的源码数据被注释了,将数据里面的注释进行替换,就可以使用xpath进行提取数据!
可以看出数据都被注释了scrapy爬取百度贴吧回复数、作者、标题

解决方法

将最原始获得的数据,用replace方法替换掉注释符
scrapy爬取百度贴吧回复数、作者、标题

再将替换的数据通过lxml库中的etree.HTML来解析这个网页的结构
scrapy爬取百度贴吧回复数、作者、标题
最后再通过xpath提取数据
图中的item是scrapy中的items文件中定义引用的,具体变量可以自己命名scrapy爬取百度贴吧回复数、作者、标题

相关文章:

  • 2022-12-23
  • 2021-10-03
  • 2021-06-15
  • 2022-12-23
  • 2022-01-03
  • 2021-08-23
  • 2021-11-25
  • 2022-01-02
猜你喜欢
  • 2021-12-07
  • 2021-10-11
  • 2021-12-17
  • 2021-04-27
  • 2021-11-30
相关资源
相似解决方案