【发布时间】:2022-11-04 01:33:52
【问题描述】:
我正在尝试使用我自己的文本语料库继续使用 Gensim 训练 fastText 模型。
我已经按照这里的文档进行了操作: https://radimrehurek.com/gensim/models/fasttext.html
我写了以下代码:
首先,创建一个小型语料库:
corpus = [
"The brown dog jumps over the kangaroo",
"I want to ride my bicycle to Mount Everest",
"What a lovely day it is",
"When I Wagagamagga, everybody stops to listen"
]
corpus = [sentence.split() for sentence in corpus]
然后加载一个测试模型:
from gensim.models.fasttext import load_facebook_model
from gensim.test.utils import datapath
model = load_facebook_model(datapath("crime-and-punishment.bin"))
然后我检查一下模型是否知道我在语料库中奇怪的新词:
'Wagagamagga' in model.wv.key_to_index
哪个返回 False。
然后我尝试继续训练:
model.build_vocab(corpus, update=True)
model.train(corpus, total_examples=len(corpus), epochs=model.epochs)
该模型现在应该知道我奇怪的新词,但是当我期望它返回 True 时,它返回 False:
'Wagagamagga' in model.wv.key_to_index
我错过了什么?
【问题讨论】:
标签: python nlp gensim fasttext