【发布时间】:2022-11-02 00:35:04
【问题描述】:
如何修改英文标记器以防止在 '/' 字符上拆分标记?
例如,以下字符串应该是一个标记:
import spacy
nlp = spacy.load('en_core_web_md')
doc = nlp("12/AB/568793")
for t in doc:
print(f"[{t.pos_} {t.text}]")
# produces
#[NUM 12]
#[SYM /]
#[ADJ AB/568793]
【问题讨论】:
-
nlp是什么?