基于机器学习的领域特定命名实体识别（NER）？答案

【问题标题】：ML based domain specific named enitty recognition (NER)?基于机器学习的领域特定命名实体识别（NER）？
【发布时间】：2012-04-16 18:39:41
【问题描述】：

我需要构建一个分类器来识别特定域中的 NE。因此，例如，如果我的域是 Hockey 或 Football，分类器应该接受该域中的 NE，但不是它在网页上看到的所有代词。我的最终目标是通过 NER 改进文本分类。

对于从事该领域工作的人，请建议我应该如何构建这样的分类器？谢谢！

【问题讨论】：

【解决方案1】：

如果您只想忽略代词，您可以运行任何 POS 标记器，然后运行任何 NER 算法（Stanford 包是一种流行的实现），然后忽略任何作为代词的命名实体。但是，代词可能指的是命名实体，这可能对分类器的性能很重要，也可能不重要。唯一可以确定它尝试的方法。

一个稍微不相关的评论 - 一个在特定领域数据（例如曲棍球）上训练的 NER 系统更有可能从该领域中提取实体，因为它会看到一些上下文实体出现在其中。根据系统的不同，它由于语法、词形模式等原因，也可能会从其他域中提取实体（如果我正确理解您的问题，您不想要这些）。

【讨论】：

我想做的是真正基于NER的网页分类。这就是为什么我选择了像 Hoeky、Football（不是运动）这样的缩小域。因此，我希望分类器识别该域上的代词（球员姓名、团队、物品制造公司等，它们都可能相关），但不是所有代词。
续。分类器可以挑选一些不相关的实体，因为没有分类器具有 100% 的精度。我不明白 NER 算法后面的 POS 标记器如何忽略你提到的代词。我想我想要的是你在“稍微无关的评论”中提到的；是的，分类器应该研究实体出现的上下文。所以我必须通过手动创建这些实体的列表来收集训练数据，对吧？
我提到的 POS 标记器不适用于 NER 分类器（尽管 POS 标记是有用的功能）——它是用于您的后处理的。在 NE 标记之后，我建议您删除所有 POS 标记为 PP 的命名实体。
感谢您的回答。你能给我推荐一些有用的链接来阅读这个吗？我已经通过 StanfordNER 和 LingPipe NERecognizer 有没有比这更好的？
我想再次进入你。 :) 假设我在特定网页中提取了 NE。正如我所提到的，我的最终目标是通过 NE 改进文本分类。那么，如果我使用 NE 数量（PERS=x，LOC = y，ORG=z）作为特征以及普通文本（文档）分类特征，以提高分类精度，是否可以？你觉得这样好吗？

【解决方案2】：

我认为像AutoNER 这样的东西可能对此有用。本质上，系统的输入是来自特定域的文本文档和您希望系统识别的特定域实体的列表（例如您的曲棍球运动员）。

根据他们在this paper 中的结果，他们在识别化学名称和疾病名称等方面表现良好。

【讨论】：