【发布时间】:2010-05-05 11:33:26
【问题描述】:
搜索引擎中的爬虫或蜘蛛如何工作
【问题讨论】:
标签: search-engine
搜索引擎中的爬虫或蜘蛛如何工作
【问题讨论】:
标签: search-engine
具体来说,您至少需要以下一些组件:
爬虫需要从不同的起点、速度、内存使用和使用大量线程/进程高效地协同工作。 I/O 是关键。
【讨论】:
万维网基本上是网络文档、图像、多媒体文件等的连接有向图。图的每个节点都是网页的一个组成部分——例如——一个网页由图像、文本、视频组成等等,它们都是链接的。Crawler 使用网页中的链接使用广度优先搜索遍历图形。
【讨论】:
蜘蛛是如何开始在网络上旅行的?通常的起点是大量使用的服务器和非常受欢迎的页面的列表。蜘蛛将从一个受欢迎的站点开始,为其页面上的单词编制索引并跟踪该站点中找到的每个链接。通过这种方式,爬虫系统迅速开始传播,遍及 Web 最广泛使用的部分。
【讨论】: