【问题标题】:Pos tagging german texts using NLTKPos 使用 NLTK 标记德语文本
【发布时间】:2013-12-18 10:11:34
【问题描述】:

我想使用 NLTK 对德语文本进行 POS 标记。我在网上找到了一些参考资料,但大多数都已过时。一些参考,例如“EUROPARL”词库,但看起来只有“EUROPARL_raw”仍然可用。而且那个没有POS标记。我还发现了一些关于使用 TIGER 语料库的参考资料,但最新版本似乎是我无法使用开箱即用的 NLTK 解析的格式。

我知道一些非 NTLT 替代方案,但我更喜欢使用 NLTK。有人可以提供一个基于德语语料库的 POS 标记的简单示例吗?

【问题讨论】:

    标签: python nltk pos-tagger


    【解决方案1】:

    使用 TIGER 语料库来训练标注器是一个不错的方法。现在也是available in CONLL09 format,可以用NLTK 加载。我将它与 Philipp Nolte 的 ClassifierBasedGermanTagger 结合使用,准确率约为 96%。我在 POS tagging of German texts with NLTK 上写了一篇博文,解释了如何运行它。

    【讨论】:

      【解决方案2】:

      您可以使用 TIGER 语料库。它可在http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html 下免费用于研究和评估。要导入它,请使用 ConllCorpusReader:

      root = '/Users/scott/nltk/tiger'
      fileid = 'tiger.16012013.conll09'
      columntypes = ['ignore', 'words', 'ignore', 'ignore', 'pos']
      corp = nltk.corpus.ConllCorpusReader(root, fileid, columntypes, encoding='utf8')
      

      然后使用这个标记的语料库训练http://www.nltk.org/book/ch06.html 中描述的ConsecutivePosTagger。但我的准确率只有 77%。为了获得更好的结果,您可以考虑其他序列分类方法中描述的其他方法。

      【讨论】:

        【解决方案3】:

        我找不到用于 NLTK 的标记语料库。如果你需要一个预先标记的语料库,你可能对 NLTK 不走运。这个问题有一个未解决的问题票,但没有任何进展 (Reading Negra Corpus Files)

        您可以使用NLTK TrainerNegra Corpus 标记您自己的语料库。它需要德语语法知识,但不需要编码。请参阅NLTK-Trainer 的演示。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2016-07-02
          • 2014-09-22
          • 1970-01-01
          • 2015-03-25
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2013-06-20
          相关资源
          最近更新 更多