【发布时间】:2017-04-27 06:26:46
【问题描述】:
我正在使用带有 Python 的 Spacy 1.8.0,我想使用 Spacy 对医疗文档进行分析。有一种方法可以向 spacy 的命名实体识别器添加新的实体类型。但是,是否可以将药物/药物的名称作为专有名词添加到 spcay 的词汇中?还是需要通过训练 spacy NER 来添加它们? 谢谢
【问题讨论】:
标签: python nlp named-entity-recognition spacy
我正在使用带有 Python 的 Spacy 1.8.0,我想使用 Spacy 对医疗文档进行分析。有一种方法可以向 spacy 的命名实体识别器添加新的实体类型。但是,是否可以将药物/药物的名称作为专有名词添加到 spcay 的词汇中?还是需要通过训练 spacy NER 来添加它们? 谢谢
【问题讨论】:
标签: python nlp named-entity-recognition spacy
我不确定您到底想做什么...但以下是一些可能性的解决方案。
您有一份感兴趣的药物/药物的完整清单...
我。 并且您想要对这些字符串进行标记化的特殊规则:不推荐这种方法,但原则上您可以将特殊情况添加到 Tokenizer。
二。 而您只是想找到它们:那么您应该在创建 Doc 后使用 Matcher 来有效地找到它们。然后你可以用你找到的跨度做你想做的事。如果你愿意,可以让它们成为代词。
您没有感兴趣的药物/药物的完整列表...
我。 但您想大致识别它们:然后您需要训练一个 NER 模型来识别它们。要生成训练数据,您可以获取一大堆论文并使用 Matcher 寻找已知药物/药物来获取一大堆例句。然后你训练......
稍后编辑:为了清楚起见,Vocab 仅存储字符串并为它们分配一个唯一 ID,以便在后台使用。是 Tagger 决定它是否是 PRON。
【讨论】: