【问题标题】:webcrawler analyse of the found pages网络爬虫分析找到的页面
【发布时间】:2011-05-17 03:24:24
【问题描述】:

我写了一个简单的网络爬虫。我获取了所有网站,但它们在我的硬盘上。 现在我想分析它们,所以我可以编写一个简单的界面,如 www.google.de 并在我获取的页面中搜索信息。

问题是如何以“快速”的方式找出重要信息。所以计算很重要。它可能是实时的,也可能是在获取之后。我的想法是写一个包含英语单词列表的字典并计算条目......或者该怎么办?我需要讲座如何提取信息并压缩它们。但我不知道去哪里找。

爬虫是基于 c++ 和存储链接的 mysql。

我希望我的问题很清楚。 :D

顺便说一句,我的英语不好,但在德语中没有这样的板:P

【问题讨论】:

    标签: web-crawler


    【解决方案1】:

    信息检索 (IR) 科学是一门复杂的科学。

    您看过任何标准文本吗?喜欢:

    Christopher D. Manning、Prabhakar Raghavan 和 Hinrich Schütze 的信息检索简介(2008 年 7 月 7 日)-http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

    信息检索:实施和评估搜索引擎 作者:Stefan Büttcher、Charles L.A. Clarke 和 Gordon V. Cormack(2010 年 7 月 23 日)-http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

    在亚马逊上搜索“信息检索”以获取更多信息。

    您还可以看看我对Design Question for Notification System 的回答,其中概述了用于搜索蜘蛛网站的一般架构。

    【讨论】:

      最近更新 更多