【发布时间】:2023-03-30 15:34:01
【问题描述】:
最多避免特定模式的硬编码规则。
我目前正在从事与 AWS Textract 类似的项目,link here。我已经成功地从文件中提取数据,但是是以非结构化的方式。现在,我正在尝试以最佳方式找出如何从这些信息中获取现有的键值对。
例如,我们有这样的文本:
在本文档中,我们将找到不同的键和值,例如这个 id:1 和那个国家:法国,没有特定的标点符号,可能在谈论我的健康状况...
提取会是这样的:
id : 1
country : France
health : good
我真正知道的是,亚马逊使用“置信度”变量从那种场景中提取信息,我猜这涉及到一些机器学习算法。就我而言,我没有那么大的数据库可供学习。
我很确定有一个更简单的解决方案,而且灵活性也不差。
【问题讨论】:
-
这是一个自然语言处理问题,目前最好使用机器学习算法来解决。即使您可以提出不需要先验信息的算法,您也需要针对某些数据验证该算法。
-
很棒的用例!我也有类似的东西。你找到解决办法了吗?请分享您的方法。
标签: javascript node.js machine-learning artificial-intelligence text-extraction