【发布时间】:2013-05-14 01:18:10
【问题描述】:
我已经搜索了但是没有找到我想要的,就是:
从维基词典中提取所有意大利语单词、词源和词性的最佳和最有效的方法......包括单词的复数形式(amico、amichi)。我想将它作为纯文本(不是 blob)放入 CSV(可能太大)或 MySQL 数据库中。
我想要英语中每个意大利语单词的必要记录。
mwdumper 也经常崩溃。
欢迎任何建议!
【问题讨论】:
标签: xml mediawiki wiktionary
我已经搜索了但是没有找到我想要的,就是:
从维基词典中提取所有意大利语单词、词源和词性的最佳和最有效的方法......包括单词的复数形式(amico、amichi)。我想将它作为纯文本(不是 blob)放入 CSV(可能太大)或 MySQL 数据库中。
我想要英语中每个意大利语单词的必要记录。
mwdumper 也经常崩溃。
欢迎任何建议!
【问题讨论】:
标签: xml mediawiki wiktionary
我创建了一个小型 Java 程序,它从 en.wiktionary XML 转储 here 中提取词性(动词、名词、形容词、adn 等),它使用 TSV,但很容易适应。
【讨论】:
java generazione.GeneraDatabasePOS运行它