【问题标题】:Search Engine without crawling?搜索引擎不爬?
【发布时间】:2011-05-14 07:59:36
【问题描述】:

有没有一种方法可以收集网络内容以便在搜索引擎中使用它而无需经过网络爬取阶段?网络爬取的任何替代方案?

谢谢

【问题讨论】:

    标签: search-engine web-crawler


    【解决方案1】:

    不,要收集内容,您必须...收集内容。 :-)

    【讨论】:

      【解决方案2】:

      是的(有点不)。

      :)

      您可以从各种网站(*、* 等)下载现有的数据转储,并以这种方式构建部分索引。它显然不会是互联网的完整索引。

      您还可以使用元搜索来构建您的搜索引擎。这是您使用其他搜索引擎的 API 并使用他们的搜索结果作为索引的基础的地方。示例包括 citosearchopensearch。 duckduckgo 使用 yahoo's boss api(现在 yahoo 使用 bing...)作为其搜索引擎的一部分。

      您还可以使用实时流式传输 API,而不是抓取网络。以datasift 为例。您可以巧妙地使用更多资源并避免/最小化爬行。

      【讨论】:

        【解决方案3】:

        如果您想使用页面上的最新内容进行更新,那么您可以使用类似pubsubhubbub 协议来获取订阅链接的推送通知。 或者使用使用相同协议的付费服务,例如superfeedr

        【讨论】:

          【解决方案4】:

          您必须直接或间接地抓取网络才能获取内容。

          【讨论】:

            【解决方案5】:

            如果您不想爬网,您可以采用类似 wiki 的方法,用户可以在其中提交指向网站的链接(带有标题、描述和标签)。因此可以建立一个协作链接集合。

            为了避免垃圾邮件,可以使用 +/- 系统,对有用的网站或标签进行投票,对无用的网站或标签进行投票。

            为避免垃圾邮件发送者对 SERP 进行大规模投票,您可以根据用户声誉对投票进行加权。

            通过提交有用的网站可以获得用户声誉。或者以某种方式跟踪使用模式。

            同时考虑其他滥用模式。

            嗯,我想你明白了。

            随着垃圾邮件发送者逐渐发现传统搜索引擎的弱点(请参阅Google bomb、内容抓取网站等),基于社区的方法可能会奏效。但是它会受到cold start效应的严重影响,并且当社区较小时,系统很容易被滥用和毒害......

            到目前为止,至少 Wikipedia 和 Stack Exchange 没有被垃圾邮件发送到无用的级别......

            PS:http://xkcd.com/810/

            【讨论】: