【发布时间】:2011-05-17 03:24:24
【问题描述】:
我写了一个简单的网络爬虫。我获取了所有网站,但它们在我的硬盘上。 现在我想分析它们,所以我可以编写一个简单的界面,如 www.google.de 并在我获取的页面中搜索信息。
问题是如何以“快速”的方式找出重要信息。所以计算很重要。它可能是实时的,也可能是在获取之后。我的想法是写一个包含英语单词列表的字典并计算条目......或者该怎么办?我需要讲座如何提取信息并压缩它们。但我不知道去哪里找。
爬虫是基于 c++ 和存储链接的 mysql。
我希望我的问题很清楚。 :D
顺便说一句,我的英语不好,但在德语中没有这样的板:P
【问题讨论】:
标签: web-crawler