【发布时间】:2011-12-13 17:40:16
【问题描述】:
是否可以使用 Lucene Benchmark 来索引维基百科转储?我希望能够在最新的英文维基百科页面转储上执行短语查询。我正在尝试寻找示例用例,但没有找到任何用例。
我下载了最新的英文转储,名为: enwiki-latest-pages-articles.xml.bz2
然后我在终端中运行命令: java org.apache.lucene.benchmark.utils.ExtractWikipedia -i ~/enwiki-latest-pages-articles.xml.bz2
我认为将页面提取到标有“enwiki”的目录中
现在我需要运行基准测试中的其他内容来为 wiki 编制索引吗? README.enwiki 并没有真正给我明确的说明,事实上我什至不确定我是否应该运行 ExtractWikipedia 类。
【问题讨论】:
-
这个问题似乎位于 StackOverflow ServerFault 和 SuperUser 之间的神秘山谷中。