【发布时间】:2011-01-06 00:39:11
【问题描述】:
我只是有这个想法,想知道是否可以在单个专用服务器(如 Core2Duo、8gig ram、750gb 磁盘 100mbps)上抓取整个网络(就像大男孩一样!) .
我看到一篇论文就是这样做的……但我不记得这篇论文的标题了。这就像使用某种统计模型在单个专用服务器上抓取整个网络。
无论如何,想象一下从大约 10,000 个种子 URL 开始,然后进行详尽的爬网......
有可能吗?
我需要抓取网络,但仅限于专用服务器。我该怎么做,是否已经有开源解决方案?
例如查看这个实时搜索引擎。 http://crawlrapidshare.com 结果非常好并且最新更新....他们是怎么做到的?
【问题讨论】:
-
祝您旅途愉快。
-
很好奇从单台机器上抓取 50% 的网络需要多长时间(即使在 FAT 管道上,真正的交易核心有大量 RAM 和 HDD 空间)。多久?有什么预测吗?
-
google 每天抓取 40 亿个网页,但仍然无法抓取整个网络。
-
平均页面大小 = 30kB。你的 100mpbs 每天会给你 4000 万,这只是理论上的。是的,你的 CPU 无法赶上解析它们的速度。
-
截至 2014 年,基于我对超过 2.5 亿页的抓取的平均页面大小约为 70kB。
标签: web-crawler