【问题标题】:How to get webgraph in apache nutch?如何在 apache nutch 中获取 webgraph?
【发布时间】:2016-04-12 06:17:54
【问题描述】:

我使用命令'bin/nutch webgraph -segmentDir crawl/segments -webgraphdb crawl/webgraphdb'.. 在apache nutch 中生成了webgrapgh db。它在 crawl/webgraphdb 中生成了三个文件夹,分别是内链接、外链接和节点。这些文件夹中的每一个都包含两个二进制文件,例如数据和索引。如何在 apache nutch 中获取可视化网络图?网络图有什么用?

【问题讨论】:

  • 你在哪里可以解决这个问题?我仍在获取二进制文件。如何获得可读的 inlinks_webgraph 和 outlinks_webgraph

标签: apache nutch


【解决方案1】:

Webgraph 旨在成为基于链接结构(即 webgraph)的分数计算中的一个步骤:

  • webgraph会生成指定segment/s的数据结构
  • linkrank 将根据之前的结构计算分数
  • scoreupdater 会将分数从 webgraph 更新回 crawldb

请注意,此程序非常占用 CPU/IO,默认情况下会忽略网站的内部链接。

您可以使用nodedumper 命令从 webgraph 数据中获取有用的数据,包括节点的实际得分和得分最高的 inlinks/outlinks。但这并不是为了可视化,尽管您可以解析此命令的输出并生成您可能需要的任何可视化。

话虽如此,自 Nutch 1.11 起,添加了插件 index-links,这将允许您在 Solr/ES 中索引每个 URL 的内链接和外链接。我已经使用这个插件索引到 Solr 以及 sigmajs 库来生成我的爬网链接结构的一些图形可视化,也许这可以满足您的需求。

【讨论】:

  • 非常感谢您的回答!!这真的很有帮助。我们正在开发一个使用 nutch 和 solr 的搜索引擎。我们希望您为我们的项目提供指导。能否请您分享您的联系信息...
  • 生成包含inlinks、outlinks和nodes的webgraphdb之后。您能否清楚地解释如何使用 sigmajs 生成可视化图形?你能在这方面帮助我们吗?
  • 嗨@KAP,仔细观察nodedumper 程序的输出不包含内链接和外链接,而是使用内链接/外链接的数量或分数对URL 列表进行排序。这意味着它确实使用了链接信息,但它没有以可用的方式输出。该插件应该可以工作(这是我所做的),您可以联系我:gmail.com 上的 betancourt.jorge。
  • 嗨@JorgeLuis,我使用相同的插件来索引每个URL 的内链和外链,但不知何故,只有外链在SOLR 中被编入索引,而不是内链。如果我们还需要做任何其他事情来将链接编入索引,您能否给我一些见解?
  • 您的链接来自同一个主机? db.ignore.internal.links 属性的值是多少?此外,linkdb.ignore.internal.links 属性默认为 true (github.com/apache/nutch/blob/master/conf/…) 导致 Nutch 忽略来自同一主机的链接。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多