目录链接:C# 爬虫框架实现 概述

 

首先需要讲的是,爬虫的原理。其实在我看来,爬虫只是用来解决以下四个问题的工具:

  • 提取哪些网页
  • 提取网页上的哪些内容
  • 存储到哪里(推荐数据库/开源类/Console)
  • 存储结构

进而可以更好的理解通用爬虫结构。结构图看这里吧。我这MS EDGE上传图片特慢。

    WebMagic总体架构图

 

这里推荐一个编程建议:先做出来,再做优化。一上来就想做到最好是很难的,而功底不够的话,还是逐步开发,先做再优化吧。

note:其实这跟刷某些算法题是类似的,之前我总是想一遍做出最好,可结果是很多时候是有可能连做都做不出来了。还是采取这种“从无到有,从有到优”比较好。

 

相关文章:

  • 2022-12-23
  • 2021-08-10
  • 2022-01-29
  • 2021-10-30
  • 2021-06-16
  • 2021-08-21
  • 2021-04-03
  • 2022-02-10
猜你喜欢
  • 2021-06-06
  • 2021-09-18
  • 2022-12-23
  • 2022-02-03
  • 2021-12-29
  • 2021-04-27
相关资源
相似解决方案