【发布时间】:2011-04-22 17:32:09
【问题描述】:
我下载了一个 Wikipedia 转储文件,我想将 wiki 格式转换为我的对象格式。是否有可用的 wiki 解析器将对象转换为 XML?
【问题讨论】:
-
+1 回答这个问题,因为我只是在考虑自己动手。
标签: java mediawiki nlp nsxmlparser wikipedia
我下载了一个 Wikipedia 转储文件,我想将 wiki 格式转换为我的对象格式。是否有可用的 wiki 解析器将对象转换为 XML?
【问题讨论】:
标签: java mediawiki nlp nsxmlparser wikipedia
这可能会有所帮助:a page with converters from mediawiki to other formats, including docbook。 Docbook 是一种基于 xml 的标准格式,可能适合您的需求(mediawiki 内容的 xml 表示)
【讨论】:
见java-wikipedia-parser。我从未使用过它,但根据文档:
解析器带有一个 HTML 发电机。但是,您可以控制 正在生成的输出 传递你自己的实现
be.devijver.wikipedia.Visitor界面。
【讨论】:
我不知道 Wikipedia 转储的 xml 格式到底是什么样子。但是,如果部分文本在 Wikipedia 标记中,我建议调查http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html。这是 Apache lucene 的 Wikipedia 包的类之一。我没有使用它,但是 apache lucene 是一个相当成熟的项目,因此值得尝试它的——在这种情况下是实验性的——包。
【讨论】:
您可以使用多种工具来解析您的内容。所有脚本语言都有模块。 例如 Perl 语言有Text::Markup::Trac,它是 Text::Markup 的 Trac wiki 语法解析器。它会生成一个 HTML 文件。
【讨论】:
你可以试试 wikiprep,它是一个 perl 维基百科解析器 check it's page
它输出许多文件,其中一些是
1- 维基百科解析成 XML 2- cat-hier 文件,其中包含维基百科类别层次结构
我试过了,很好用 唯一的问题是它需要高内存来处理很可能超过 4gb 的 RAM 您也可以从here 下载预先准备好的 XML 版本,该版本也可以在页面上找到
【讨论】:
JWPL 解析器使用 MediaWiki 标记分析文本的结构并将其表示为 Java 对象。这允许对例如内容的结构化访问。维基百科或维基词典。解析器没有独立版本,因为它是 JWPL Wikipedia API 版本的一部分。但是,它可以完美使用,无需通过 JWPL 访问 Wikipedia。
【讨论】: