【发布时间】:2021-07-09 23:21:48
【问题描述】:
假设我的语料库相当大——有数万个独特的词。我可以使用它直接构建 word2vec 模型(下面代码中的方法 #1),或者使用预先训练的模型权重初始化一个新的 word2vec 模型,并使用我自己的语料库对其进行微调(方法 #2)。方法#2值得考虑吗?如果是这样,是否有关于何时应考虑使用预训练模型的经验法则?
# Approach #1
from gensim.models import Word2Vec
model = Word2Vec(my_corpus, vector_size=300, min_count=1)
# Approach #2
model = Word2Vec(vector_size=300, min_count=1)
model.build_vocab(my_corpus)
model.intersect_word2vec_format("GoogleNews-vectors-negative300.bin", binary=True, lockf=1.0)
model.train(my_corpus, total_examples=len(my_corpus))
【问题讨论】:
标签: python gensim word2vec word-embedding pre-trained-model