站点特定搜索引擎和网络爬虫的体系结构答案

【问题标题】：Architecture of site specific search engine and web crawler站点特定搜索引擎和网络爬虫的体系结构
【发布时间】：2015-03-06 19:15:34
【问题描述】：

有人可以让我知道网站特定搜索引擎的架构，就像非常笼统的答案一样，我不想要任何编码和其他东西作为理论。

我的第二个疑问是：为了更快地抓取网页，您设置了两台不同的抓取机器，它们具有不同的起始种子 URL。两台爬行计算机未设置为相互通信和共享数据。这是分布式网络爬虫的有效策略吗？

【问题讨论】：

stackoverflow.com/help/dont-ask
第二部分听起来像是家庭作业。你能更具体地说明你为什么要问这些问题吗？如果你想建造一些东西，你到底想要建造什么？你认为它应该有什么样的架构？

标签： web-crawler search-engine

【解决方案1】：

首先，如果两台计算机无论如何都没有连接，那么你如何处理多次录制相同的网站，你最好的办法是链接它们并使用组合资源（你可能会找到一些免费软件要做到这一点，根据我自己的经验，我不确定）。其次，你的问题很模糊，搜索引擎有三个主要部分，网络爬虫、索引和数据库等等，然后是前端，用户只看到前端，通常在 php 中，就像你的普通网站一样。索引和数据库相关的东西是您在数据库中组织数据的地方，然后网络爬行是您收集数据的地方。在那个抽象级别上确实非常简单，但是如果没有更详细的问题，我们真的无法深入。

【讨论】：