【发布时间】:2017-11-15 17:02:23
【问题描述】:
嘿!我正在尝试在使用 spacy 2.02 标记某些令牌时添加一个例外,我知道存在 .tokenizer.add_special_case() 我在某些情况下使用它,但例如像 100 美元这样的令牌,spacy splits在两个令牌中
('US$', 'SYM'), ('100', 'NUM')
但我想像这样一分为三,而不是为美元后面的每个数字做一个特殊情况,我想为每个格式为 US$NUMBER 的令牌做一个例外。
('US', 'PROPN'), ('$', 'SYM'), ('800', 'NUM')
我正在阅读 spacy 文档中有关 TOKENIZER_EXCEPTIONS 的信息,但我不知道该怎么做。
我正在尝试使用
从 spacy.lang.en.tokenizer_exceptions 导入 TOKENIZER_EXCEPTIONS 还有 spacy.util 有一个方法 update_exc()。
有人可以发布一个完整的代码示例吗?
哦,另一件事,我知道 lang.en 上的文件 tokenizer_exceptions 已经有一些例外,例如将“i'm”拆分为“i”“'m”,我已经评论了该部分,但这不起作用.我不希望标记器拆分“我”,我怎么能这样做?
谢谢
【问题讨论】: