搜索引擎中的蜘蛛是如何工作的？答案

【问题标题】：how does spider in a search engine works?搜索引擎中的蜘蛛是如何工作的？
【发布时间】：2010-05-05 11:33:26
【问题描述】：

搜索引擎中的爬虫或蜘蛛如何工作

【问题讨论】：

【解决方案1】：

具体来说，您至少需要以下一些组件：

配置： 需要告诉爬虫如何、何时、何地连接文档；以及如何连接到底层数据库/索引系统。
连接器：这将创建到网页或磁盘共享或任何东西的连接，真的。
内存：爬虫必须知道已经访问过的页面。这通常存储在索引中，但这取决于实现和需求。内容也经过哈希处理，以进行重复数据删除和更新验证。
解析器/转换器：需要能够理解文档的内容并提取元数据。将提取的数据转换为底层数据库系统可用的格式。
索引器：将数据和元数据推送到数据库/索引系统。
Scheduler：将计划爬虫的运行。可能需要同时处理大量正在运行的爬虫，并考虑当前正在执行的操作。
连接算法： 当解析器找到指向其他文档的链接时，需要分析下一个连接必须在何时、如何以及在何处进行。此外，某些索引算法会考虑页面连接图，因此可能需要存储和排序相关信息。
政策管理：有些网站要求抓取工具遵守某些政策（例如robots.txt）。
安全/用户管理：爬虫可能需要能够登录某些系统才能访问数据。
内容编译/执行：爬虫可能需要执行某些内容才能访问其中的内容，例如小程序/插件。

爬虫需要从不同的起点、速度、内存使用和使用大量线程/进程高效地协同工作。 I/O 是关键。

【讨论】：

【解决方案2】：

万维网基本上是网络文档、图像、多媒体文件等的连接有向图。图的每个节点都是网页的一个组成部分——例如——一个网页由图像、文本、视频组成等等，它们都是链接的。Crawler 使用网页中的链接使用广度优先搜索遍历图形。

【讨论】：

【解决方案3】：

来自How Stuff Works

蜘蛛是如何开始在网络上旅行的？通常的起点是大量使用的服务器和非常受欢迎的页面的列表。蜘蛛将从一个受欢迎的站点开始，为其页面上的单词编制索引并跟踪该站点中找到的每个链接。通过这种方式，爬虫系统迅速开始传播，遍及 Web 最广泛使用的部分。

【讨论】：