【问题标题】:spaCy fails to properly parse medical textspaCy 无法正确解析医学文本
【发布时间】:2017-09-25 12:04:22
【问题描述】:

最近我在使用 spaCy 将一些医学文本拆分成句子时遇到了一些问题。也许您可以解释一下,为什么会出现这些问题?

如果单词的长度为 1 并且句子以点结尾,则不会识别句子的结尾。 例如:

在术前或治疗之间没有差异 术后血流动力学或肌钙蛋白释放I。 (此处不拆分)术前 心脏手术患者的口服辅酶 Q(10) 治疗 增加心肌和心脏线粒体辅酶 Q(10) 水平, 提高线粒体效率,增加心肌耐受性 体外缺氧复氧应激。

另一个问题是字符+/-,它被视为句子的结尾。例如一个完整的句子被分成几个句子,如下所示:

  • VO(2max) 显着下降 3.6 +/-
  • 2.1, 14 +/-
  • 2.5 和 27.4 +/-
  • TW 3.6%,5 +/-
  • 4, 9.4 +/-
  • 6.4 和 18.7 +/-
  • 分别在 1000、2500 和 4500 m 处西南方向 7%。

以上都应该是一个句子!

有时句子在单词和特殊字符(特殊字符和特殊字符、数字和长度小于 3 的单词)之间中断。

接受左心室辅助的患者的存活率 设备(n = 68)与接受最佳医疗管理的患者 (n = 61) 在 1 年时分别为 52% 和 28%,在 2 年时分别为 29% 和 13% 在此拆分 (P = .008,对数秩检验)。

非常感谢!

【问题讨论】:

    标签: nlp spacy


    【解决方案1】:

    SpaCy 的英语模型是根据网络数据进行训练的 - 主要是博客文章之类的内容。显然,一般的博客文章看起来不像你正在研究的医学文献,所以 spaCy 非常混乱。这个问题不是 spaCy 特有的,任何设计用于处理“典型”英语但不包括医学论文并使用统计建模的系统也会发生此问题。

    医学文本因在其他情况下工作的 NLP 技术存在问题而臭名昭著,因此您可能想四处寻找专门为此量身定制的内容。或者,您可以尝试根据您的数据制作一个小型训练集并制作一个新的 spaCy 模型。

    也就是说,+/- 问题看起来确实很奇怪,并且可能是基于标记化问题或其他问题而不是模型问题 - 我建议您提交错误报告 here

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-03-01
      • 1970-01-01
      • 2018-05-17
      • 1970-01-01
      • 1970-01-01
      • 2013-02-21
      • 2014-10-10
      • 1970-01-01
      相关资源
      最近更新 更多