【问题标题】:Is there a way to find specific sequence of words in a text corpus?有没有办法在文本语料库中找到特定的单词序列?
【发布时间】:2023-03-06 04:33:01
【问题描述】:

使用 Python,我正在尝试查找被诊断患有哮喘(关键字 2)的患者的年龄(关键字 4)。

文本句子可能在这些关键字的所需顺序之间包含其他单词。

例如。文字句子:“嗨,斯蒂芬,很高兴听到你现在做得不太好! 你不是一个人! 我 13 岁时患有轻度受控运动诱发性哮喘,然后在 19 岁时经历了与您类似的情况。随机开始出现问题,像没有明天一样经历了 Ventolin"

预期输出:13

【问题讨论】:

    标签: python nlp spacy


    【解决方案1】:

    如果没有更多例句,很难给出示例代码,但在这种情况下,我要做的是首先过滤您的输入以获取包含您的触发术语的示例(例如“轻度受控运动诱发的哮喘”)。这可以使用 spaCy 的 EntityRuler 来完成。

    有了候选句子,您就可以查找数字。您可以使用依赖解析器来查找诸如“19 岁”之类的短语,或者您可以查找特定短语中的数字(例如“我 12 岁时”)。依赖解析使用句子的整体结构,因此事物之间的单词数量并不重要。

    您可以看到示例依赖项解析 here,但请注意在后端使用 spaCy 2。

    您可能还想阅读最近添加的Dependency Matcher 的文档,这将帮助您找到特定的依赖结构。

    【讨论】:

      猜你喜欢
      • 2018-09-05
      • 1970-01-01
      • 1970-01-01
      • 2019-04-02
      • 2020-12-09
      • 1970-01-01
      • 2013-08-12
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多