【发布时间】:2011-08-17 06:47:41
【问题描述】:
我需要用 Java 构建一个 POS 标记器,并且需要知道如何开始。是否有代码示例或其他资源可以帮助说明词性标注器的工作原理?
【问题讨论】:
-
nlp 是一个难以解决的问题。您应该从寻找已发表的解决您的问题的文章开始,选择一些建议的解决方案,实施它们,然后选择对您产生更好结果的解决方案。
-
嗯...您有从头开始构建自己的吗?因为如果没有,您可以只使用 Andrey 下面提到的 Stanford 或 WColen 提到的 OpenNLP。斯坦福是我的首选;这是相当不错的。如果你必须建造一个,那听起来像是一个家庭作业项目。否则真的没有理由自己做(我至少能想到没有理由哈哈)。
-
创建一个词性标注器是一项艰巨的任务。理想情况下,您将获得一个带注释的语料库,对其进行解析,获得令牌频率,获得似然估计,平滑数据,然后构建模型。该模型可以仅基于您现有的随机数据,使用诸如 logit 或 HMM 之类的东西,或者您可以使用带有特征的监督干预以及您依赖特征的 Maxent 或 Perceptron 模型。您还可以通过使用类似于 Brille 的基于规则的标记器来完全避免概率模型。
标签: java nlp pos-tagger