【问题标题】:Best way to extract Key-Value Pairs from unstructured String?从非结构化字符串中提取键值对的最佳方法?
【发布时间】:2023-03-30 15:34:01
【问题描述】:

最多避免特定模式的硬编码规则。

我目前正在从事与 AWS Textract 类似的项目,link here。我已经成功地从文件中提取数据,但是是以非结构化的方式。现在,我正在尝试以最佳方式找出如何从这些信息中获取现有的键值对。

例如,我们有这样的文本:

在本文档中,我们将找到不同的键和值,例如这个 id:1 和那个国家:法国,​​没有特定的标点符号,可能在谈论我的健康状况...

提取会是这样的:

id : 1
country : France
health : good

我真正知道的是,亚马逊使用“置信度”变量从那种场景中提取信息,我猜这涉及到一些机器学习算法。就我而言,我没有那么大的数据库可供学习。

我很确定有一个更简单的解决方案,而且灵活性也不差。

【问题讨论】:

  • 这是一个自然语言处理问题,目前最好使用机器学习算法来解决。即使您可以提出不需要先验信息的算法,您也需要针对某些数据验证该算法。
  • 很棒的用例!我也有类似的东西。你找到解决办法了吗?请分享您的方法。

标签: javascript node.js machine-learning artificial-intelligence text-extraction


【解决方案1】:

我相信spaCy 库可能是满足您需求的正确工具。看看 GitHub 上的描述就知道了。

它可以使用spacy-nlp 包暴露给Node JS。

【讨论】:

猜你喜欢
  • 1970-01-01
  • 2010-09-10
  • 2011-11-21
  • 2021-05-15
  • 1970-01-01
  • 2020-01-04
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多