【问题标题】:how does spider in a search engine works?搜索引擎中的蜘蛛是如何工作的?
【发布时间】:2010-05-05 11:33:26
【问题描述】:

搜索引擎中的爬虫或蜘蛛如何工作

【问题讨论】:

标签: search-engine


【解决方案1】:

具体来说,您至少需要以下一些组件:

  • 配置: 需要告诉爬虫如何、何时、何地连接文档;以及如何连接到底层数据库/索引系统。
  • 连接器:这将创建到网页或磁盘共享或任何东西的连接,真的。
  • 内存:爬虫必须知道已经访问过的页面。这通常存储在索引中,但这取决于实现和需求。内容也经过哈希处理,以进行重复数据删除和更新验证。
  • 解析器/转换器:需要能够理解文档的内容并提取元数据。将提取的数据转换为底层数据库系统可用的格式。
  • 索引器:将数据和元数据推送到数据库/索引系统。
  • Scheduler:将计划爬虫的运行。可能需要同时处理大量正在运行的爬虫,并考虑当前正在执行的操作。
  • 连接算法: 当解析器找到指向其他文档的链接时,需要分析下一个连接必须在何时、如何以及在何处进行。此外,某些索引算法会考虑页面连接图,因此可能需要存储和排序相关信息。
  • 政策管理:有些网站要求抓取工具遵守某些政策(例如robots.txt)。
  • 安全/用户管理:爬虫可能需要能够登录某些系统才能访问数据。
  • 内容编译/执行:爬虫可能需要执行某些内容才能访问其中的内容,例如小程序/插件。

爬虫需要从不同的起点、速度、内存使用和使用大量线程/进程高效地协同工作。 I/O 是关键。

【讨论】:

    【解决方案2】:

    万维网基本上是网络文档、图像、多媒体文件等的连接有向图。图的每个节点都是网页的一个组成部分——例如——一个网页由图像、文本、视频组成等等,它们都是链接的。Crawler 使用网页中的链接使用广度优先搜索遍历图形。

    1. 爬虫最初从一个(或多个)种子点开始。
    2. 它会扫描网页并浏览该页面中的链接。
    3. 此过程一直持续到探索完所有图(可以使用一些预定义的约束来限制搜索深度)。

    【讨论】:

      【解决方案3】:

      来自How Stuff Works

      蜘蛛是如何开始在网络上旅行的?通常的起点是大量使用的服务器和非常受欢迎的页面的列表。蜘蛛将从一个受欢迎的站点开始,为其页面上的单词编制索引并跟踪该站点中找到的每个链接。通过这种方式,爬虫系统迅速开始传播,遍及 Web 最广泛使用的部分。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2011-09-29
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2010-09-21
        相关资源
        最近更新 更多