【发布时间】:2019-04-26 07:18:59
【问题描述】:
我想使用神经模型(如使用 python 的 CRF)提取非结构化文本格式中提到的温度和持续时间等数值实体。我想知道如何进行数字提取,因为互联网上的大多数示例都是针对特定单词或字符串的提取。
输入:“在那里 5 分钟,我感觉就像在华氏 350 度的烤箱中烘烤” 输出:温度:350 时长:5分钟
【问题讨论】:
标签: python-3.x nlp named-entity-recognition
我想使用神经模型(如使用 python 的 CRF)提取非结构化文本格式中提到的温度和持续时间等数值实体。我想知道如何进行数字提取,因为互联网上的大多数示例都是针对特定单词或字符串的提取。
输入:“在那里 5 分钟,我感觉就像在华氏 350 度的烤箱中烘烤” 输出:温度:350 时长:5分钟
【问题讨论】:
标签: python-3.x nlp named-entity-recognition
到目前为止,我的研究表明您可以将数字视为单词。
这引发了一个问题:学习 5 可以,但 19684 将很难学习。
一个建议是转换成文字。 “一万九千六百八十四”并嵌入每个单词。不方便的是,您现在正在学习(最小)6 维向量(每个单词一维)
根据您的使用情况,您还可以嵌入具有不同 id 的 0 到 3000,例如 3001 到 10000 会将 id 3001 映射到您的字典中,然后每 10x 在字典中添加一个 id。
【讨论】: