【问题标题】:How to add proper nouns as vocab to Spacy models?如何将专有名词作为词汇添加到 Spacy 模型?
【发布时间】:2017-04-27 06:26:46
【问题描述】:

我正在使用带有 Python 的 Spacy 1.8.0,我想使用 Spacy 对医疗文档进行分析。有一种方法可以向 spacy 的命名实体识别器添加新的实体类型。但是,是否可以将药物/药物的名称作为专有名词添加到 spcay 的词汇中?还是需要通过训练 spacy NER 来添加它们? 谢谢

【问题讨论】:

    标签: python nlp named-entity-recognition spacy


    【解决方案1】:

    我不确定您到底想做什么...但以下是一些可能性的解决方案。

    1. 您有一份感兴趣的药物/药物的完整清单...

      我。 并且您想要对这些字符串进行标记化的特殊规则:不推荐这种方法,但原则上您可以将特殊情况添加到 Tokenizer。

      二。 而您只是想找到它们:那么您应该在创建 Doc 后使用 Matcher 来有效地找到它们。然后你可以用你找到的跨度做你想做的事。如果你愿意,可以让它们成为代词。

    2. 您没有感兴趣的药物/药物的完整列表...

      我。 但您想大致识别它们:然后您需要训练一个 NER 模型来识别它们。要生成训练数据,您可以获取一大堆论文并使用 Matcher 寻找已知药物/药物来获取一大堆例句。然后你训练......

    稍后编辑:为了清楚起见,Vocab 仅存储字符串并为它们分配一个唯一 ID,以便在后台使用。是 Tagger 决定它是否是 PRON。

    【讨论】:

      猜你喜欢
      • 2020-04-18
      • 2020-03-02
      • 2020-04-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多