使用 NLTK 中的自定义文件/代码改进实体命名答案

【问题标题】：Improving entity naming with custom file/code in NLTK使用 NLTK 中的自定义文件/代码改进实体命名
【发布时间】：2010-09-23 06:57:57
【问题描述】：

在最近的一个项目中，我们一直在使用 NLTK 库主要对命名实体部分感兴趣。

一般来说，使用 NEChunkParser 类我们会得到很好的结果。但是，我们正在尝试找到一种方法来向解析器，没有成功。

例如，我们有一个测试文档，其中我的名字 (Shay) 出现在几个地方。图书馆发现我是 GPE，而我希望它找到我作为人......

有没有办法提供某种自定义文件/ 代码，因此解析器将能够像我一样解释命名实体想要吗？

谢谢！

【问题讨论】：

嘿，Shay，你在这方面有什么进展吗？我很想看看你想出了什么，因为我遇到了类似的问题。

标签： nlp nltk

【解决方案1】：

简单的解决方案是编译一个您知道被错误分类的实体列表，然后在后处理模块中过滤NEChunkParser 输出，并将这些实体的标签替换为您希望它们拥有的标签。

正确的解决方案是重新训练 NE 标注器。如果您查看 NLTK 的 source code，您会看到 NEChunkParser 基于 MaxEnt 分类器，即机器学习算法。您必须编译和注释代表您要使用的数据类型的语料库（数据集），然后在此语料库上重新训练 NE 标记器。（这很难、耗时且可能很昂贵。）

【讨论】：