【发布时间】:2021-06-11 06:57:15
【问题描述】:
我希望使用 SpaCy v3 从大量句子中提取命名实体。我有什么工作,但它似乎比应有的速度慢,在投资更多机器之前,我想知道我是否正在做比我需要做的更多的工作。
我使用 ntlk 将所有内容作为迭代器解析为句子,然后使用“管道”处理这些内容以获取命名实体。所有这些似乎都运行良好,python 似乎对我机器上的每个 cpu 核心都造成了相当大的影响,这很好。
nlp = spacy.load("en_core_web_trf")
for (doc, context) in nlp.pipe(lines, as_tuples=True, batch_size=1000):
for ent in doc.ents:
pass #handle each entity
我知道我可以使用 nlp.disable_pipes 来禁用某些元素。有什么我可以禁用但不会影响准确性并且 NER 不需要的东西吗?
【问题讨论】:
标签: spacy named-entity-recognition