【发布时间】:2020-06-19 03:21:46
【问题描述】:
是否有任何可用的工具/库(最好是成熟/可靠的商业产品或开源)可以从纯文本中提取结构化数据?通常纯文本包含布尔或数学操作数,如(AND、OR、BETWEEN 等)。
我喜欢 AWS Comprehend,但我不确定它是否可以轻松用于此任务。
vehicle with 2 to 5 wheels
=>
SUBJECT: vehicle
EXPRESSION:
SUBJECT: wheels
OPERAND: BETWEEN
NUMBER: 2
NUMBER: 5
【问题讨论】:
-
为此目的可能有点繁琐,但如果您的文本每次都具有相同的结构,您总是可以使用正则表达式(正则表达式)。几乎每种编程语言都支持正则表达式。这是从数据中提取文本片段的常用方法。旁注:我经历过正则表达式有点难学。周围肯定有一些课程。
-
正则表达式听起来太低级并且不可扩展。我更喜欢基于 NLP 的东西,它允许更大的灵活性。
标签: nlp semantic-analysis amazon-comprehend