【发布时间】:2015-12-13 14:30:17
【问题描述】:
我希望使用 Stanford CoreNLP 捕获测量值。 (如果你能推荐一个不同的提取器,那也很好。)
比如我要找15kg、15kg、15.0kg、15kg、15 lbs、15 lbs 等。但在 CoreNLPs 提取规则中,我没有看到用于测量的规则。
当然,我可以使用纯正则表达式来做到这一点,但是工具包可以运行得更快,并且它们提供了在更高级别进行分块的机会,例如将 gb 和 gigabytes 放在一起,将 RAM 和 memory 视为构建块——即使没有完整的句法解析—— - 因为他们构建更大的单元,例如 128 GB RAM 和 8 GB 内存。
我想要一个基于规则的提取器,而不是基于机器学习的),但不要将其视为RegexNer 或其他地方的一部分。我该怎么办?
IBM Named Entity Extraction 可以做到这一点。正则表达式以一种有效的方式运行,而不是通过每个正则表达式传递文本。并且正则表达式被捆绑以表达有意义的实体,例如将所有测量单位统一为一个概念的实体。
【问题讨论】:
标签: nlp stanford-nlp named-entity-recognition named-entity-extraction