【发布时间】:2017-09-25 12:04:22
【问题描述】:
最近我在使用 spaCy 将一些医学文本拆分成句子时遇到了一些问题。也许您可以解释一下,为什么会出现这些问题?
如果单词的长度为 1 并且句子以点结尾,则不会识别句子的结尾。 例如:
在术前或治疗之间没有差异 术后血流动力学或肌钙蛋白释放I。 (此处不拆分)术前 心脏手术患者的口服辅酶 Q(10) 治疗 增加心肌和心脏线粒体辅酶 Q(10) 水平, 提高线粒体效率,增加心肌耐受性 体外缺氧复氧应激。
另一个问题是字符+/-,它被视为句子的结尾。例如一个完整的句子被分成几个句子,如下所示:
- VO(2max) 显着下降 3.6 +/-
- 2.1, 14 +/-
- 2.5 和 27.4 +/-
- TW 3.6%,5 +/-
- 4, 9.4 +/-
- 6.4 和 18.7 +/-
- 分别在 1000、2500 和 4500 m 处西南方向 7%。
以上都应该是一个句子!
有时句子在单词和特殊字符(特殊字符和特殊字符、数字和长度小于 3 的单词)之间中断。
接受左心室辅助的患者的存活率 设备(n = 68)与接受最佳医疗管理的患者 (n = 61) 在 1 年时分别为 52% 和 28%,在 2 年时分别为 29% 和 13% 在此拆分 (P = .008,对数秩检验)。
非常感谢!
【问题讨论】: