【发布时间】:2015-02-20 15:23:02
【问题描述】:
我在 python 中使用 nltk 模块,我正在尝试将其用于 POS 标记不同的语言。
有很多关于如何用不同语言训练你自己的词性标注器的信息 - 是否有一个非常强大的数据库,其中包含针对不同语言的构建良好且经过测试的 NLTK 词性标注器? (使用 pickle 模块很容易导出词性标注器)
【问题讨论】:
我在 python 中使用 nltk 模块,我正在尝试将其用于 POS 标记不同的语言。
有很多关于如何用不同语言训练你自己的词性标注器的信息 - 是否有一个非常强大的数据库,其中包含针对不同语言的构建良好且经过测试的 NLTK 词性标注器? (使用 pickle 模块很容易导出词性标注器)
【问题讨论】:
如果不严格只使用 NLTK,您可以尝试我们强大且独立于语言的 POS 标记工具包RDRPOSTagger。
(许可证:GPLv2;编程语言:Python 和 Java)
RDRPOSTagger 在学习和标记过程中都获得了快速的性能。此外,与最先进的结果相比,RDRPOSTagger 实现了极具竞争力的准确性。
2015 年 18 月 11 日更新:发布 1.2 版,提高了标记准确性,尤其是在形态丰富的语言上。在this paper 中查看实验结果,包括性能速度和标记准确性。
RDRPOSTagger 支持保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语和越南语的预训练 POS 和形态标记模型。 RDRPOSTagger 还支持 40 种语言的预训练通用 POS 标记模型。
【讨论】:
据我所知,没有这样一个强大的、经过精心构建和测试的 POS 标注器的数据库。不过我确实认为这是个好主意。
我自己尝试了几个标记器。对于我使用过的大型英语语料库: http://gmb.let.rug.nl/
对于西班牙语,我使用了 NLTK (cess_esp) 中包含的那个
from nltk.corpus import cess_esp as cess
要快速训练简单的标注器,您可以查看 NLTK Trainer:
https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html
【讨论】:
您可以在以下网址找到强大且经过精心构建和测试的 NLTK Corpora http://www.nltk.org/nltk_data/
您可能会找到其他语料库,但这些是最好的
【讨论】: