用于简单 POS 标记的 NLP 库答案

【问题标题】：NLP libraries for simple POS tagging用于简单 POS 标记的 NLP 库
【发布时间】：2012-06-07 05:56:38
【问题描述】：

我是一名正在从事 NLP 暑期项目的学生。我对该领域相当陌生，所以如果有一个非常明显的解决方案，我深表歉意。该项目使用 C 语言，既由于我对它的熟悉，又由于该项目的计算密集型特性（我的语料库是维基百科的明文转储）。

我正在研究一种关系提取方法，利用一致性原则来尝试学习（在某个错误阈值内）一组规则，这些规则指示哪些语法对象集群暗示了这些对象之间的连接。

算法的第一步涉及找到给定单词可以引用的所有可能语法对象的集合（POS 消歧由算法在后面的步骤中隐式完成）。我看过几个解析器，但他们似乎都自己做了消歧步骤，这（从我的角度来看）适得其反。我正在寻找现成的东西（理想情况下）给我一种单一命令的方式来打开这些信息。

这样的事情存在吗？如果没有，是否存在包含这些信息的字典，这些信息可以简单地被机器解析？

感谢您的帮助。

【问题讨论】：

因此，您希望将自己的 pos 标记器作为联合 pos 标记和其他任务的一部分，而不是使用现有的 pos 标记器甚至现有的解析器作为关系提取的输入系统？为什么要一次性重新发明每一个轮子？为什么不通过例如尝试关系提取任务？应用你的方法重新排列现有的关系提取器，或者从 best-k 依赖解析开始，然后才进入修复较低的部分或进行联合推理？
这实际上可能更难。原则上，使用我使用的算法，您应该基本上免费获得 POS 标记，作为其他一些过程的副作用。我要直截了当地告诉你：我真的不知道我在做什么。几周前，我在一个深夜阅读了一本关于信息论的书后，在梦中发现了这个算法。我对获得功能正常的解析器的兴趣比查看算法是否实际执行高于机会水平更不感兴趣。为此，实现一个快速而肮脏（

【解决方案1】：

看看 CMU 狮身人面像。一个开源 NLP 项目。我认为它在 C++ 中，但您可以集成它，或者至少了解如何做事。

【讨论】：

【解决方案2】：

如果你觉得很活泼，可以将外部 POS 标记器作为 shell 脚本调用或将其包装在 http 服务中怎么办？

Java 和 Python 拥有绝大多数 NLP 库，因此利用它是有意义的。如果您可以在脚本中使用 NLTK 来标记内容，请从 C 中调用此脚本，这样会更容易。

【讨论】：