从非结构化字符串中提取键值对的最佳方法？答案

【问题标题】：Best way to extract Key-Value Pairs from unstructured String?从非结构化字符串中提取键值对的最佳方法？
【发布时间】：2023-03-30 15:34:01
【问题描述】：

最多避免特定模式的硬编码规则。

我目前正在从事与 AWS Textract 类似的项目，link here。我已经成功地从文件中提取数据，但是是以非结构化的方式。现在，我正在尝试以最佳方式找出如何从这些信息中获取现有的键值对。

例如，我们有这样的文本：

在本文档中，我们将找到不同的键和值，例如这个 id：1 和那个国家：法国，没有特定的标点符号，可能在谈论我的健康状况...

提取会是这样的：

id : 1
country : France
health : good

我真正知道的是，亚马逊使用“置信度”变量从那种场景中提取信息，我猜这涉及到一些机器学习算法。就我而言，我没有那么大的数据库可供学习。

我很确定有一个更简单的解决方案，而且灵活性也不差。

【问题讨论】：

【解决方案1】：

我相信spaCy 库可能是满足您需求的正确工具。看看 GitHub 上的描述就知道了。

它可以使用spacy-nlp 包暴露给Node JS。

【讨论】：

我现在就试试这个。我会告诉你它是否给出了正确的结果。
通常，链接到工具或库should be accompanied by usage notes, a specific explanation of how the linked resource is applicable to the problem, and some sample code。如果该工具或库不是免费使用的，请在您的回答中提及这一点。