【问题标题】:extract structured data from text从文本中提取结构化数据
【发布时间】:2020-06-19 03:21:46
【问题描述】:

是否有任何可用的工具/库(最好是成熟/可靠的商业产品或开源)可以从纯文本中提取结构化数据?通常纯文本包含布尔或数学操作数,如(AND、OR、BETWEEN 等)。

我喜欢 AWS Comprehend,但我不确定它是否可以轻松用于此任务。

vehicle with 2 to 5 wheels
=>
SUBJECT: vehicle
EXPRESSION:
  SUBJECT: wheels
  OPERAND: BETWEEN
    NUMBER: 2
    NUMBER: 5

【问题讨论】:

  • 为此目的可能有点繁琐,但如果您的文本每次都具有相同的结构,您总是可以使用正则表达式(正则表达式)。几乎每种编程语言都支持正则表达式。这是从数据中提取文本片段的常用方法。旁注:我经历过正则表达式有点难学。周围肯定有一些课程。
  • 正则表达式听起来太低级并且不可扩展。我更喜欢基于 NLP 的东西,它允许更大的灵活性。

标签: nlp semantic-analysis amazon-comprehend


【解决方案1】:

Comprehend 本身不支持将文本转换为结构化格式。但是,您可以使用 Syntax API 派生词性并从那里创建基于规则的结构。

https://docs.aws.amazon.com/comprehend/latest/dg/how-syntax.html

对于上面的示例,“vehicle”和“wheels”将被检测为名词,“2”和“5”将被检测为数字/值,“to”和“with”被检测为附加词。

【讨论】:

    猜你喜欢
    • 2012-02-03
    • 2020-09-17
    • 2016-09-10
    • 1970-01-01
    • 1970-01-01
    • 2014-05-01
    • 2016-09-07
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多