斯坦福 CoreNLP 命名实体识别如何捕获 5 英寸、5 英寸、5 英寸、5 英寸等测量值答案

【问题标题】：How can Stanford CoreNLP Named Entity Recognition capture measurements like 5 inches, 5", 5 in., 5 in斯坦福 CoreNLP 命名实体识别如何捕获 5 英寸、5 英寸、5 英寸、5 英寸等测量值
【发布时间】：2015-12-13 14:30:17
【问题描述】：

我希望使用 Stanford CoreNLP 捕获测量值。（如果你能推荐一个不同的提取器，那也很好。）

比如我要找15kg、15kg、15.0kg、15kg、15 lbs、15 lbs 等。但在 CoreNLPs 提取规则中，我没有看到用于测量的规则。

当然，我可以使用纯正则表达式来做到这一点，但是工具包可以运行得更快，并且它们提供了在更高级别进行分块的机会，例如将 gb 和 gigabytes 放在一起，将 RAM 和 memory 视为构建块——即使没有完整的句法解析—— - 因为他们构建更大的单元，例如 128 GB RAM 和 8 GB 内存。

我想要一个基于规则的提取器，而不是基于机器学习的），但不要将其视为RegexNer 或其他地方的一部分。我该怎么办？

IBM Named Entity Extraction 可以做到这一点。正则表达式以一种有效的方式运行，而不是通过每个正则表达式传递文本。并且正则表达式被捆绑以表达有意义的实体，例如将所有测量单位统一为一个概念的实体。

【问题讨论】：

标签： nlp stanford-nlp named-entity-recognition named-entity-extraction

【解决方案1】：

我认为这个特定任务不存在基于规则的系统。但是，使用 TokensregexNER 应该不难。例如，如下映射：

[{ner:NUMBER}]+ /(k|m|g|t)b/ memory?   MEMORY
[{ner:NUMBER}]+ /"|''|in(ches)?/       LENGTH
...

您也可以尝试使用 vanilla TokensRegex，然后使用捕获组提取相关值：

(?$group_name [{ner:NUMBER}]+) /(k|m|g|t)b/ memory?

【讨论】：

看起来这是IBM Named Entity Extraction 的一个特殊功能。正则表达式当然可以在任何系统中使用，但是 IBM NEE 可以更有效地运行模式；并将相关概念一起处理。（例如，邮政编码在世界范围内有几十种形式，但都是出于更高层次概念的目的的“邮政编码”。）
这当然是真的：IBM 为这种正则表达式匹配提供了一个更快的引擎。然而，上面的例子来自 CoreNLP。 TokensRegex（包含在 CoreNLP 中）对于大多数应用程序来说通常足够快；特别是如果 (1) 模式很简单（没有可变长度匹配），或者 (2) 模式足够少。
如果您正在寻找主要基于正则表达式的解决方案，您还可以查看 GATE 的 JAPE 正则表达式环境。我不确定它是否比我们的快，但它确实有更多的 GUI 支持。

【解决方案2】：

您可以构建自己的训练数据并相应地标记所需的测量值。

例如，如果你有一个像Jack weighs about 50 kgs这样的句子

因此模型会将您的输入分类为：

杰克，人
重量，O
关于，O
50、MES
公斤，MES

MES 代表测量值。

我最近针对我的自定义问题为Stanford NER tagger 制作了训练数据，并为它建立了一个模型。

我认为Stanford CoreNLP NER 你也可以做同样的事情

这可能是machine learning-based 方法而不是rule-based 方法

【讨论】：

谢谢你，罗汉。基于 ML 的方法可能很有价值。但很明显，一些规则在这里会给我们带来很多价值。对于没有 CoreNLP 的临时解决方案而言，正则表达式太多，无法简单或高效，但如果实体提取工具可以让我以一种确实使其简单且高效的方式捆绑这些正则表达式，我希望它。
看起来这是IBM Named Entity Extraction 的一个特殊功能。正则表达式当然可以在任何系统中使用，但是 IBM NEE 可以更有效地运行模式；并同时处理相关概念。（例如，邮政编码在世界范围内有几十种形式，但都是出于更高层次概念的目的的“邮政编码”。）
是的，这是可能的。这个问题需要大量的研究。 :)