【发布时间】:2022-01-16 16:53:33
【问题描述】:
我正在尝试上传预先训练的西班牙语单词向量,然后使用自定义句子对其进行重新训练:
!pip install fasttext
import fasttext
import fasttext.util
#download pre-trained spanish language word vectors c
fasttext.util.download_model('es', if_exists='ignore') # Spanish
ft = fasttext.load_model('cc.es.300.bin')
但是一旦我尝试更新词汇表,它就会给我这个 AttributeError:
ft.build_vocab(sentences, update=True)
AttributeError: '_FastText' object has no attribute 'build_vocab'
有什么建议吗?
【问题讨论】:
-
请阅读以下答案:stackoverflow.com/a/64711974/10883094(和stackoverflow.com/a/58342618/10883094)。在任何情况下,您都必须使用这样的语法:
model = fasttext.train_supervised(input=TRAIN_FILEPATH, ..., pretrainedVectors=VECTORS_FILEPATH) -
谢谢,我正在检查这些答案,但我需要重新训练一个无监督模型,我有一个小型语料库,首先我想加载一个西班牙语语料库,然后用我的小型语料库重新训练它。对于文档中的内容:'''model = fasttext.train_unsupervised('data.txt', model='skipgram')''' 或者如果我直接加载它 '''model = fasttext.load_model("model_filename. bin")''' 我找不到如何用我自己的数据集重新训练fasttext模型,我认为我不必使用''' fasttext.train_supervisedfasttext.train_supervised'''
标签: python nlp gensim fasttext