使用 Lucene 索引维基百科答案

【问题标题】：Using Lucene to index Wikipedia使用 Lucene 索引维基百科
【发布时间】：2011-12-13 17:40:16
【问题描述】：

是否可以使用 Lucene Benchmark 来索引维基百科转储？我希望能够在最新的英文维基百科页面转储上执行短语查询。我正在尝试寻找示例用例，但没有找到任何用例。

我下载了最新的英文转储，名为： enwiki-latest-pages-articles.xml.bz2

然后我在终端中运行命令： java org.apache.lucene.benchmark.utils.ExtractWikipedia -i ~/enwiki-latest-pages-articles.xml.bz2

我认为将页面提取到标有“enwiki”的目录中

现在我需要运行基准测试中的其他内容来为 wiki 编制索引吗？ README.enwiki 并没有真正给我明确的说明，事实上我什至不确定我是否应该运行 ExtractWikipedia 类。

【问题讨论】：

【解决方案1】：

只要运行“蚂蚁”；我在 Lucene 邮件列表上发布了一个更彻底的答案，但这基本上就是它的要点。 build.xml 文件有一堆运行基准测试的目标。

【讨论】：

您能否在 Lucene 邮件列表中添加指向您的答案的链接或将答案粘贴到此处？我想试试这个解决方案，但没有说明。
这里是 2011 年旧线程的链接：markmail.org/thread/qhkh7lyxff77kskrYMMV 我不确定那里的解决方案是否仍然有效，因为 Lucene 从那时起经历了许多变化......

【解决方案2】：

维基媒体基金会一直致力于开发名为 DiffDb 的新项目。使用 Hadoop，我们创建了两个修订版之间的差异，所有这些差异都使用 Lucene 进行索引。你可以在github上找到代码：

仅英语 Wikipedia 的结果索引为 1.4Tb，但您可以进行非常酷的查询，例如谁在 2005 年 4 月添加了 foo，谁删除了超过 10k 字节等。

【讨论】：