【发布时间】:2015-03-06 19:15:34
【问题描述】:
有人可以让我知道网站特定搜索引擎的架构,就像非常笼统的答案一样,我不想要任何编码和其他东西作为理论。
我的第二个疑问是:为了更快地抓取网页,您设置了两台不同的抓取机器,它们具有不同的起始种子 URL。两台爬行计算机未设置为相互通信和共享数据。这是分布式网络爬虫的有效策略吗?
【问题讨论】:
-
第二部分听起来像是家庭作业。你能更具体地说明你为什么要问这些问题吗?如果你想建造一些东西,你到底想要建造什么? 你认为它应该有什么样的架构?