【发布时间】:2020-05-30 16:33:03
【问题描述】:
我必须处理数十万条文本。我发现以下内容花费时间最长:
nlp = English()
ruler = EntityRuler(nlp)
patterns = [...]
ruler.add_patterns(patterns)
nlp.add_pipe(ruler)
...
#This line takes longer than I would like
doc = nlp(whole_chat)
当然,我有很多模式。但是有没有办法加快这个速度?我只有实体尺管,没有其他的。
【问题讨论】:
-
对于任何来到这里的人,现在有一个 spaCy 的官方速度常见问题解答,其中包含来自答案的建议以及更多信息。 github.com/explosion/spaCy/discussions/8402