【问题标题】:Easiest way to convert wikitext to plaintext将wikitext转换为纯文本的最简单方法
【发布时间】:2017-08-23 12:04:49
【问题描述】:

我有一个wikitext文件列表(所有.txt),每个文件都有wikitext标记,我想要每个文件,对应的纯文本版本,我尝试使用https://github.com/spencermountain/wtf_wikipedia,它确实适用于一篇文章,但是在遍历文件夹中的所有 .txt 文件时,出现以下错误,我很难调试。

错误:

/home/saurabh/node_modules/wtf_wikipedia/src/index.js:27 让 arr = Object.keys(data.sections).map(k => { ^

TypeError:无法将 undefined 或 null 转换为对象 在 Function.keys () 在 Object.plaintext (/home/saurabh/node_modules/wtf_wikipedia/src/index.js:27:20) 在/home/saurabh/Desktop/comprehension_burden/wikipedia_w2v/wiki_xml_to_jsonv4.js:71:32 在 Array.forEach () 在对象。 (/home/saurabh/Desktop/comprehension_burden/wikipedia_w2v/wiki_xml_to_jsonv4.js:62:7) 在 Module._compile (module.js:573:30) 在 Object.Module._extensions..js (module.js:584:10) 在 Module.load (module.js:507:32) 在 tryModuleLoad (module.js:470:12) 在 Function.Module._load (module.js:462:3)

这里是代码:https://gist.github.com/saurabhvyas/1b719f027984ea33864a15fd58bf1b9f

文件数量巨大,所以我正在寻找时间复杂度最低的解决方案

【问题讨论】:

    标签: node.js mediawiki wikipedia


    【解决方案1】:

    我会推荐pandoc,它可以从wikitext 转换为纯文本(以及很多其他格式)。

    你会做这样的事情:

    for F in *.wikitext; do
        pandoc -f mediawiki -o "$F.txt" "$F"
    done
    

    【讨论】:

    • 谢谢,我一定会检查 pandoc !
    猜你喜欢
    • 1970-01-01
    • 2014-06-17
    • 2012-09-02
    • 2011-10-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多