维基百科解析器答案

【问题标题】：Parser for Wikipedia维基百科解析器
【发布时间】：2011-04-22 17:32:09
【问题描述】：

我下载了一个 Wikipedia 转储文件，我想将 wiki 格式转换为我的对象格式。是否有可用的 wiki 解析器将对象转换为 XML？

【问题讨论】：

【解决方案1】：

这可能会有所帮助：a page with converters from mediawiki to other formats, including docbook。 Docbook 是一种基于 xml 的标准格式，可能适合您的需求（mediawiki 内容的 xml 表示）

【讨论】：

【解决方案2】：

见java-wikipedia-parser。我从未使用过它，但根据文档：

解析器带有一个 HTML 发电机。但是，您可以控制正在生成的输出传递你自己的实现 be.devijver.wikipedia.Visitor 界面。

【讨论】：

【解决方案3】：

我不知道 Wikipedia 转储的 xml 格式到底是什么样子。但是，如果部分文本在 Wikipedia 标记中，我建议调查http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html。这是 Apache lucene 的 Wikipedia 包的类之一。我没有使用它，但是 apache lucene 是一个相当成熟的项目，因此值得尝试它的——在这种情况下是实验性的——包。

【讨论】：

【解决方案4】：

您可以使用多种工具来解析您的内容。所有脚本语言都有模块。例如 Perl 语言有Text::Markup::Trac，它是 Text::Markup 的 Trac wiki 语法解析器。它会生成一个 HTML 文件。

【讨论】：

【解决方案5】：

你可以试试 wikiprep，它是一个 perl 维基百科解析器 check it's page

它输出许多文件，其中一些是

1- 维基百科解析成 XML 2- cat-hier 文件，其中包含维基百科类别层次结构

我试过了，很好用唯一的问题是它需要高内存来处理很可能超过 4gb 的 RAM 您也可以从here 下载预先准备好的 XML 版本，该版本也可以在页面上找到

【讨论】：

【解决方案6】：

JWPL 解析器使用 MediaWiki 标记分析文本的结构并将其表示为 Java 对象。这允许对例如内容的结构化访问。维基百科或维基词典。解析器没有独立版本，因为它是 JWPL Wikipedia API 版本的一部分。但是，它可以完美使用，无需通过 JWPL 访问 Wikipedia。

【讨论】：