【问题标题】:How to use GermaNet (WordNet German correspondent) with R如何在 R 中使用 GermaNet(WordNet 德国通讯员)
【发布时间】:2014-03-19 04:40:28
【问题描述】:

我想使用GermaNet 对列表(实际上是DTM 术语——用于提高文本分类性能)进行词形还原(对应于WordNet 中的getLemma())。但是,我找不到 GermaNet 的任何提示或 R 包。是否仍有可能在 R 中使用它?

【问题讨论】:

  • 根据 Ingo Feinerer 教授(tm-package 联合开发者)的说法,R (RWeka) 没有实际的 GermaNet 版本。

标签: r wordnet lemmatization


【解决方案1】:

我假设您可以访问存储 wordnet 数据的原始文件(Germanet 似乎允许免费许可)。您可以解析它们(只需使用一些漂亮的正则表达式)并提取您需要的信息(我不确切知道 DTM 是什么,但我想这与当时的同义词集或链接有关)。我工作的一个 wordnet(不是德语)被组织在多个文件中,一些包含链接,一些信息的形式类似于

0 @1@ WORD_MEANING
  1 PART_OF_SPEECH "v"
  1 VARIANTS
    2 LITERAL "someverb"
      3 SENSE 7
      3 DEFINITION "adefinition"
      3 EXAMPLES
        4 EXAMPLE "anexample"
      3 EXTERNAL_INFO
...

这应该不难解析。

【讨论】:

  • DTM 表示Document-Term Matrix,简而言之:它是一个大矩阵,其中不同(许多)文本文档按行排列,而每一列代表一个特定单词(来自所有文档中使用的所有单词)行文档中的频率。 GermaNet 的访问权限是here。我对正则表达式相当蹩脚,不再在该领域。但是Ingo Feinerer 告诉我(2014 年),如果有一个 R 通讯员会很好。我想也很受欢迎。
  • 现在我明白了。我知道什么是文档术语矩阵,只是在这种情况下没有建立联系。但是,您需要的是一个适当的词形还原器(在构建 DTM 之前解析文本)。从 WN 中查找文本单词的词干/引理(特别是仅使用正则表达式)确实效果不佳,德语形态学太复杂了。 'German lemmatizer' 在 Google 上提供了大量的点击率,试试看。祝你好运!
  • 非常感谢 :) 你有什么建议(最终免费)更合适吗?
  • @alex 我个人并不熟悉德语 NLP 工具的最新技术,但我敢肯定,如果你阅读了几篇论文,你很快就会有一个想法:最好的(当有人构建新软件时,他们通常会将它与以前做同样事情的工具进行比较)。或者只选择一个您认为与您的项目最兼容的一个(即,一个免费的、不是仅在线的(有些可能是在线的),并且易于与您正在做的事情集成)。
猜你喜欢
  • 2017-12-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多