Pos 使用 NLTK 标记德语文本答案

【问题标题】：Pos tagging german texts using NLTKPos 使用 NLTK 标记德语文本
【发布时间】：2013-12-18 10:11:34
【问题描述】：

我想使用 NLTK 对德语文本进行 POS 标记。我在网上找到了一些参考资料，但大多数都已过时。一些参考，例如“EUROPARL”词库，但看起来只有“EUROPARL_raw”仍然可用。而且那个没有POS标记。我还发现了一些关于使用 TIGER 语料库的参考资料，但最新版本似乎是我无法使用开箱即用的 NLTK 解析的格式。

我知道一些非 NTLT 替代方案，但我更喜欢使用 NLTK。有人可以提供一个基于德语语料库的 POS 标记的简单示例吗？

【问题讨论】：

标签： python nltk pos-tagger

【解决方案1】：

使用 TIGER 语料库来训练标注器是一个不错的方法。现在也是available in CONLL09 format，可以用NLTK 加载。我将它与 Philipp Nolte 的 ClassifierBasedGermanTagger 结合使用，准确率约为 96%。我在 POS tagging of German texts with NLTK 上写了一篇博文，解释了如何运行它。

【讨论】：

【解决方案2】：

您可以使用 TIGER 语料库。它可在http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html 下免费用于研究和评估。要导入它，请使用 ConllCorpusReader：

root = '/Users/scott/nltk/tiger'
fileid = 'tiger.16012013.conll09'
columntypes = ['ignore', 'words', 'ignore', 'ignore', 'pos']
corp = nltk.corpus.ConllCorpusReader(root, fileid, columntypes, encoding='utf8')

然后使用这个标记的语料库训练http://www.nltk.org/book/ch06.html 中描述的ConsecutivePosTagger。但我的准确率只有 77%。为了获得更好的结果，您可以考虑其他序列分类方法中描述的其他方法。

【讨论】：

【解决方案3】：

我找不到用于 NLTK 的标记语料库。如果你需要一个预先标记的语料库，你可能对 NLTK 不走运。这个问题有一个未解决的问题票，但没有任何进展 (Reading Negra Corpus Files)

您可以使用NLTK Trainer 和Negra Corpus 标记您自己的语料库。它需要德语语法知识，但不需要编码。请参阅NLTK-Trainer 的演示。

【讨论】：