【问题标题】:what would be the best approach to extract one language form wiktionary?提取一种语言形式的维基词典的最佳方法是什么?
【发布时间】:2013-05-14 01:18:10
【问题描述】:

我已经搜索了但是没有找到我想要的,就是:

从维基词典中提取所有意大利语单词、词源和词性的最佳和最有效的方法......包括单词的复数形式(amico、amichi)。我想将它作为纯文本(不是 blob)放入 CSV(可能太大)或 MySQL 数据库中。

我想要英语中每个意大利语单词的必要记录。

mwdumper 也经常崩溃。

欢迎任何建议!

【问题讨论】:

    标签: xml mediawiki wiktionary


    【解决方案1】:

    我创建了一个小型 Java 程序,它从 en.wiktionary XML 转储 here 中提取词性(动词、名词、形容词、adn 等),它使用 TSV,但很容易适应。

    【讨论】:

    • Jackopo,我试图编译它并得到这个错误:POSfromDump.java:20: 错误:类 GeneraDatabasePOS 是公共的,应该在一个名为 GeneraDatabasePOS.java 的文件中声明 public class GeneraDatabasePOS {(对不起,我以前从未编译过java)
    • 你必须将它保存在一个名为类的文件中,即GeneraDatabasePOS.java。您还必须更改包含文件路径的代码行。
    • 另外你必须把它放到一个名为“generazione”的文件夹中并用java generazione.GeneraDatabasePOS运行它
    • 您可以查看更新版本here 或直接下载文件“POS_list_IT_mar_2013.txt”,大小为 8.7 MB,包含 486481 个术语。
    猜你喜欢
    • 1970-01-01
    • 2012-02-05
    • 2011-02-23
    • 1970-01-01
    • 1970-01-01
    • 2010-09-18
    • 1970-01-01
    • 1970-01-01
    • 2019-11-21
    相关资源
    最近更新 更多