一、WebMagic的四个组件

1.Downloader

  Downloader负责从互联网上下载页面,默认使用apache HttpClient作为下载工具

2.PageProcessor

  负责解析页面,抽取有用的信息,以及发现新的链接,默认使用Jsoup作为HTML解析工具,并基于其开发了

  解析XPath的工具Xsoup。

3.Scheduler

  负责管理抓取待抓取的URL,并做一些去重的工作,默认使用JDK内存队列来管理URL,并用集合进行去重。也支持redis的分布式管理。

4.Pipeline

  负责抽取结果的处理,包括计算,持久化到文件,数据库等。如要要保存到指定数据库,则需要编写对应的Pipeline。

相关文章:

  • 2021-07-18
  • 2022-02-21
  • 2022-01-26
  • 2022-12-23
  • 2021-04-22
  • 2021-06-13
  • 2021-10-25
猜你喜欢
  • 2022-12-23
  • 2021-10-03
  • 2021-10-05
  • 2021-09-29
  • 2021-08-16
  • 2022-02-02
相关资源
相似解决方案