【问题标题】:numerical entity extraction from unstructured texts using python使用python从非结构化文本中提取数字实体
【发布时间】:2019-04-26 07:18:59
【问题描述】:

我想使用神经模型(如使用 python 的 CRF)提取非结构化文本格式中提到的温度和持续时间等数值实体。我想知道如何进行数字提取,因为互联网上的大多数示例都是针对特定单词或字符串的提取。

输入:“在那里 5 分钟,我感觉就像在华氏 350 度的烤箱中烘烤” 输出:温度:350 时长:5分钟

【问题讨论】:

    标签: python-3.x nlp named-entity-recognition


    【解决方案1】:

    到目前为止,我的研究表明您可以将数字视为单词。

    这引发了一个问题:学习 5 可以,但 19684 将很难学习。

    一个建议是转换成文字。 “一万九千六百八十四”并嵌入每个单词。不方便的是,您现在正在学习(最小)6 维向量(每个单词一维)

    根据您的使用情况,您还可以嵌入具有不同 id 的 0 到 3000,例如 3001 到 10000 会将 id 3001 映射到您的字典中,然后每 10x 在字典中添加一个 id。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-10-28
      • 1970-01-01
      • 2016-09-07
      • 2021-05-15
      • 2014-05-01
      • 2013-10-02
      相关资源
      最近更新 更多