【问题标题】:Using Lucene to index Wikipedia使用 Lucene 索引维基百科
【发布时间】:2011-12-13 17:40:16
【问题描述】:

是否可以使用 Lucene Benchmark 来索引维基百科转储?我希望能够在最新的英文维基百科页面转储上执​​行短语查询。我正在尝试寻找示例用例,但没有找到任何用例。

我下载了最新的英文转储,名为: enwiki-latest-pages-articles.xml.bz2

然后我在终端中运行命令: java org.apache.lucene.benchmark.utils.ExtractWikipedia -i ~/enwiki-latest-pages-articles.xml.bz2

我认为将页面提取到标有“enwiki”的目录中

现在我需要运行基准测试中的其他内容来为 wiki 编制索引吗? README.enwiki 并没有真正给我明确的说明,事实上我什至不确定我是否应该运行 ExtractWikipedia 类。

【问题讨论】:

  • 这个问题似乎位于 StackOverflow ServerFault 和 SuperUser 之间的神秘山谷中。

标签: java lucene mediawiki


【解决方案1】:

只要运行“蚂蚁”;我在 Lucene 邮件列表上发布了一个更彻底的答案,但这基本上就是它的要点。 build.xml 文件有一堆运行基准测试的目标。

【讨论】:

  • 您能否在 Lucene 邮件列表中添加指向您的答案的链接或将答案粘贴到此处?我想试试这个解决方案,但没有说明。
  • 这里是 2011 年旧线程的链接:markmail.org/thread/qhkh7lyxff77kskrYMMV 我不确定那里的解决方案是否仍然有效,因为 Lucene 从那时起经历了许多变化......
【解决方案2】:

维基媒体基金会一直致力于开发名为 DiffDb 的新项目。使用 Hadoop,我们创建了两个修订版之间的差异,所有这些差异都使用 Lucene 进行索引。你可以在github上找到代码:

仅英语 Wikipedia 的结果索引为 1.4Tb,但您可以进行非常酷的查询,例如谁在 2005 年 4 月添加了 foo,谁删除了超过 10k 字节等。

【讨论】:

    猜你喜欢
    • 2013-12-26
    • 2013-05-11
    • 2015-02-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多