【发布时间】:2017-09-26 12:29:20
【问题描述】:
我正在使用 SpaCy 处理来自独特主题域的英文文本的 NLP 任务。我想逐步改进 SpaCy 现存的英文模型(特别是我从 'en_core_web_md' 开始),并将它们打包以便我的同事重复使用。
我的第一个更改是对标记器的简单更改;我首先定义了一个自定义类:
class DomainSpecificEnglish(English.Defaults):
lang = 'en_mydomain'
class Defaults(English.Defaults):
# my custom changes the tokenizer here
spacy.util.set_lang_class(DomainSpecificEnglish.lang, DomainSpecificEnglish)
目前,我会继续使用en_core_web_md 的词汇和词向量(稍后我也会重新训练这些)。 ,但 SpaCy 通过 lang 字符串查找这些模型文件,该字符串不再是 "en"。
如何构建依赖于已构建模型的特定领域“语言”子类?我是否必须将en_core_web_md 文件显式复制到磁盘上名为en_mydomain 的新文件夹中?
一旦成功,我希望将这个小项目(一个类)打包为我的同事可以安装的 Python 鸡蛋。理想情况下,我不应该要求他们还运行额外的安装后命令来在磁盘上移动文件。
【问题讨论】: