spaCy 无法正确解析医学文本答案

【问题标题】：spaCy fails to properly parse medical textspaCy 无法正确解析医学文本
【发布时间】：2017-09-25 12:04:22
【问题描述】：

最近我在使用 spaCy 将一些医学文本拆分成句子时遇到了一些问题。也许您可以解释一下，为什么会出现这些问题？

如果单词的长度为 1 并且句子以点结尾，则不会识别句子的结尾。例如：

在术前或治疗之间没有差异术后血流动力学或肌钙蛋白释放I。（此处不拆分）术前 心脏手术患者的口服辅酶 Q(10) 治疗增加心肌和心脏线粒体辅酶 Q(10) 水平，提高线粒体效率，增加心肌耐受性体外缺氧复氧应激。

另一个问题是字符+/-，它被视为句子的结尾。例如一个完整的句子被分成几个句子，如下所示：

以上都应该是一个句子！

有时句子在单词和特殊字符（特殊字符和特殊字符、数字和长度小于 3 的单词）之间中断。

接受左心室辅助的患者的存活率设备（n = 68）与接受最佳医疗管理的患者 (n = 61) 在 1 年时分别为 52% 和 28%，在 2 年时分别为 29% 和 13% 在此拆分 （P = .008，对数秩检验）。

非常感谢！

【问题讨论】：

标签： nlp spacy

【解决方案1】：

SpaCy 的英语模型是根据网络数据进行训练的 - 主要是博客文章之类的内容。显然，一般的博客文章看起来不像你正在研究的医学文献，所以 spaCy 非常混乱。这个问题不是 spaCy 特有的，任何设计用于处理“典型”英语但不包括医学论文并使用统计建模的系统也会发生此问题。

医学文本因在其他情况下工作的 NLP 技术存在问题而臭名昭著，因此您可能想四处寻找专门为此量身定制的内容。或者，您可以尝试根据您的数据制作一个小型训练集并制作一个新的 spaCy 模型。

也就是说，+/- 问题看起来确实很奇怪，并且可能是基于标记化问题或其他问题而不是模型问题 - 我建议您提交错误报告 here。

【讨论】：