【问题标题】:Architecture of site specific search engine and web crawler站点特定搜索引擎和网络爬虫的体系结构
【发布时间】:2015-03-06 19:15:34
【问题描述】:

有人可以让我知道网站特定搜索引擎的架构,就像非常笼统的答案一样,我不想要任何编码和其他东西作为理论。

我的第二个疑问是:为了更快地抓取网页,您设置了两台不同的抓取机器,它们具有不同的起始种子 URL。两台爬行计算机未设置为相互通信和共享数据。这是分布式网络爬虫的有效策略吗?

【问题讨论】:

  • 第二部分听起来像是家庭作业。你能更具体地说明你为什么要问这些问题吗?如果你想建造一些东西,你到底想要建造什么? 认为它应该有什么样的架构?

标签: web-crawler search-engine


【解决方案1】:

首先,如果两台计算机无论如何都没有连接,那么你如何处理多次录制相同的网站,你最好的办法是链接它们并使用组合资源(你可能会找到一些免费软件要做到这一点,根据我自己的经验,我不确定)。 其次,你的问题很模糊,搜索引擎有三个主要部分,网络爬虫、索引和数据库等等,然后是前端,用户只看到前端,通常在 php 中,就像你的普通网站一样。索引和数据库相关的东西是您在数据库中组织数据的地方,然后网络爬行是您收集数据的地方。在那个抽象级别上确实非常简单,但是如果没有更详细的问题,我们真的无法深入。

【讨论】:

    猜你喜欢
    • 2010-11-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-13
    • 1970-01-01
    • 1970-01-01
    • 2021-07-08
    相关资源
    最近更新 更多