【问题标题】:Parser for Wikipedia维基百科解析器
【发布时间】:2011-04-22 17:32:09
【问题描述】:

我下载了一个 Wikipedia 转储文件,我想将 wiki 格式转换为我的对象格式。是否有可用的 wiki 解析器将对象转换为 XML?

【问题讨论】:

  • +1 回答这个问题,因为我只是在考虑自己动手。

标签: java mediawiki nlp nsxmlparser wikipedia


【解决方案1】:

这可能会有所帮助:a page with converters from mediawiki to other formats, including docbook。 Docbook 是一种基于 xml 的标准格式,可能适合您的需求(mediawiki 内容的 xml 表示)

【讨论】:

    【解决方案2】:

    java-wikipedia-parser。我从未使用过它,但根据文档:

    解析器带有一个 HTML 发电机。但是,您可以控制 正在生成的输出 传递你自己的实现 be.devijver.wikipedia.Visitor 界面。

    【讨论】:

      【解决方案3】:

      我不知道 Wikipedia 转储的 xml 格式到底是什么样子。但是,如果部分文本在 Wikipedia 标记中,我建议调查http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html。这是 Apache lucene 的 Wikipedia 包的类之一。我没有使用它,但是 apache lucene 是一个相当成熟的项目,因此值得尝试它的——在这种情况下是实验性的——包。

      【讨论】:

        【解决方案4】:

        您可以使用多种工具来解析您的内容。所有脚本语言都有模块。 例如 Perl 语言有Text::Markup::Trac,它是 Text::Markup 的 Trac wiki 语法解析器。它会生成一个 HTML 文件。

        【讨论】:

          【解决方案5】:

          你可以试试 wikiprep,它是一个 perl 维基百科解析器 check it's page

          它输出许多文件,其中一些是

          1- 维基百科解析成 XML 2- cat-hier 文件,其中包含维基百科类别层次结构

          我试过了,很好用 唯一的问题是它需要高内存来处理很可能超过 4gb 的 RAM 您也可以从here 下载预先准备好的 XML 版本,该版本也可以在页面上找到

          【讨论】:

            【解决方案6】:

            JWPL 解析器使用 MediaWiki 标记分析文本的结构并将其表示为 Java 对象。这允许对例如内容的结构化访问。维基百科或维基词典。解析器没有独立版本,因为它是 JWPL Wikipedia API 版本的一部分。但是,它可以完美使用,无需通过 JWPL 访问 Wikipedia。

            http://code.google.com/p/jwpl/wiki/JWPLParser

            【讨论】:

              猜你喜欢
              • 1970-01-01
              • 1970-01-01
              • 1970-01-01
              • 2016-07-21
              • 1970-01-01
              • 1970-01-01
              • 2015-05-08
              • 2016-03-27
              • 1970-01-01
              相关资源
              最近更新 更多