识别自然文本中的关键字和命令答案

【问题标题】：Identify keywords and commands in natural text识别自然文本中的关键字和命令
【发布时间】：2016-09-07 20:20:54
【问题描述】：

我正在尝试构建一个系统，该系统可以根据人工输入的书面文本识别各种命令和输入。我将从一个例子开始，让事情变得更干净。假设用户输入以下文本：

我的名字是 John Doe，我的年龄是 28 岁，我的地址是 巴克利街没有。 7 哈瓦那。 我喜欢 草莓和香草巧克力蛋糕。

基于一组预定义的标记（例如“姓名是”、“年龄是”、“地址是”、“我喜欢”），我想检测它们对应的值（例如“John Doe”、“28”、“巴克利街……哈瓦那”、“巧克力蛋糕……香草”）。

我目前的尝试是通过一些正则表达式模式来解决这个问题：对于每个标记，我构建了一个正则表达式，大致如下：“如果你找到标记 X，则取其与 X、Y、Z 中的任何一个之间的所有文本你可以找到的标记”。那是在标记之间提取文本，但是基于正则表达式构建所有内容将非常麻烦，尤其是当我开始考虑弯曲和小的变化时。

我在 NLP 方面没有太多经验，所以我不确定我应该从哪里开始寻找合适的解决方案。有哪些合适的方法/解决方案/库来解决这个问题？

【问题讨论】：

虽然我可能不太了解 NLP，但我可以 100% 肯定地告诉你：正则表达式 NOT 强大到足以生成可靠的文本解释。自然语言极其复杂且经常相互矛盾，甚至比正则表达式更强大的构造（如context-free grammars）也不足以处理自然语言文本。
您可以尝试根据标记拆分字符串。 regexformat.com/version_files/Rx5_ScrnSht01.jpg
然后您可以根据不同的标记进一步拆分结果，直到您可以制定。回顾：在主要标记上拆分，然后在次要标记上拆分（可能是主要标记的子集）。
好吧，我非常同意 Sebastian 的观点，即正则表达式不够强大，也不够适合这种情况。但是，我不确定从哪里开始选择替代方案。标记的问题在于，即使我执行一组“规则”，人们仍然可以写出诸如“我的名字是约翰，我的年龄是 28 岁”，“叫约翰，年龄 28”，“我被称为约翰”、“我叫约翰”等
你可以尝试类似RegEx JSON parser实现的方法，看看Sub ParseJson()。你用标记替换一些元素字符序列和搭配，然后用另一个标记替换一些标记组合，循环重复，直到你得到一些顶级标记，这意味着成功识别。然后根据token的嵌套和结构提取必要的数据。

标签： regex nlp artificial-intelligence text-parsing information-extraction

【解决方案1】：

您实际尝试做的是“信息提取”，特别是命名实体识别 (NER) 以检测感兴趣的提及。有关概述，请参阅：

https://en.wikipedia.org/wiki/Information_extraction

要真正开始使用接近最先进的技术来解决您的问题，我建议您研究一下斯坦福 NLP 工具包 (http://nlp.stanford.edu/software/) 来完成您的基本 NLP 任务（标记化、POS 标记），但他们的 NER 工具包不需要你离你的具体要求很远。你可以尝试他们的 SPIED 来帮助你，但我没有使用它，也不能保证它。最终，如果您认真对待这项任务（从表面上看，这听起来很困难），您将不得不为您想要提取的所有实体编写自己的 NER 系统。您可能希望将一些正则表达式合并为机器学习功能来帮助您完成任务（从 LibSVM 或 Mallet 等简单的 ML 库开始），但无论如何这将是很多工作。

祝你好运！

【讨论】：

【解决方案2】：

如果需要识别命名实体，例如人、地点、组织，那么可以使用 Python 中的 StanfordNER 库。此外，还有在 Python 中使用 CRF 算法训练自己的自定义实体识别模型的解决方案。 Here 是一篇解释相同的文章。

【讨论】：