【问题标题】:C++ libraries for web ranking and search engines用于网络排名和搜索引擎的 C++ 库
【发布时间】:2011-11-11 21:59:20
【问题描述】:

谁能给我介绍一些包含PageRank、HITS 等网络排名算法的库? 谢谢

【问题讨论】:

  • 我严重怀疑这样的库是否存在。 AFAIK、PageRank 等都是秘密算法。
  • 请注意,我已经重新标记了这个问题,因此它更有可能导致可能包含有用信息的相关帖子。您可以单击这些标签并浏览它们,或者混合它们。例如:stackoverflow.com/questions/tagged/c%2b%2b%20search-engine

标签: c++ search-engine web-crawler information-retrieval pagerank


【解决方案1】:

我猜您指的是the original PageRank paper 中发布的规范 PageRank 算法。现在人们使用“PageRank”来指代实际的当前 Google 搜索算法。

如果确实如此,那么 PageRank 实现并不难找到和使用。通过 Google 搜索,您可以找到大量的实现。以One in python 为例。

对于 HITS 算法,有 pseudocode in wikipedia。还有一个Perl implementation

我还建议CLucene 让你开始胡闹。

【讨论】:

  • 但是 clucene 没有说明书。你知道如何在 c++ 中使用它吗?
【解决方案2】:

除非您为 Google 工作,否则没有多少好的方法可以找出他们的网页排名算法的细节……这种算法会不时发生变化。维基百科概述了一些基础知识:

http://en.wikipedia.org/wiki/PageRank

其他人写冗长的文章:

http://www.smashingmagazine.com/2007/06/05/google-pagerank-what-do-we-really-know-about-it/

如果您对编写搜索引擎所涉及的各种技术感兴趣,这里有几个主题。例如,有“网络爬虫”以及如何编写访问网站并获取其内容的程序......以及确定何时再次访问这些网站以查看它们是否已更改:

http://en.wikipedia.org/wiki/Web_crawler

一旦您的机器上有大量数据要分析和搜索,要研究的主题领域称为“信息检索”(或“IR”):

http://en.wikipedia.org/wiki/Information_retrieval

这是一门相当新的科学,但已经做了很多工作。维基百科有一个“免费搜索引擎软件”列表:

http://en.wikipedia.org/wiki/Category:Free_search_engine_software

我建议,如果您是新手,那么最好先弄清楚如何使用 Lucene 之类的东西在您拥有的网站上提供搜索框。然后深入研究它是如何工作的。如果这对您很重要,它已被移植到 C++:

http://clucene.sourceforge.net/

【讨论】:

  • 感谢您提供完美的信息。但我专注于网络排名,它是网络信息检索的一部分。我需要一些排名算法的实现,例如 PageRank 和其他算法,以便将它们的结果与我的结果进行比较。
  • 你可以试试那些免费的搜索引擎软件链接,也许可以得到一些显示他们计算的排名的数据文件。但是,与 Google 的方法进行比较的唯一可行的方法是制作样本数据集,然后使用 Google Site Search 或购买 Google Search Appliance...以各种方式提供信息,并将他们的热门选择与您的比较相同的数据:google.com/enterprise/search/gsa.html
  • PageRank、HITS、...等一些著名的排名算法已经发表在多篇论文中。我需要将我的结果与他们进行比较!我想要他们的实现!你有什么想法吗?
  • 你已经看到了其他人看到的......在论文中发表的一般描述。您还注意到这些论文旁边没有发布的源代码。除非您为 Google 工作、对 Google Search Appliance 进行逆向工程或参与某种工业间谍活动……否则您将无法访问他们的搜索算法的源代码。您可以将商业搜索引擎视为一个黑匣子并查看结果,也可以研究开源引擎的内部结构。这就是你所拥有的。
猜你喜欢
  • 2012-03-15
  • 2010-11-23
  • 2013-06-27
  • 1970-01-01
  • 2012-02-20
  • 2012-08-03
  • 1970-01-01
  • 2013-04-19
相关资源
最近更新 更多