【发布时间】:2020-10-20 03:36:20
【问题描述】:
我有一个超过 40G 的数据集。由于内存有限,我的标记器程序被杀死,所以我尝试拆分我的数据集。如何增量训练word2vec模型,即如何使用单独的数据集训练一个word2vec模型?
我目前的 word2vec 代码是:
model = gensim.models.Word2Vec(documents, size=150, window=10, min_count=1, workers=10)
model.train(documents,total_examples=len(documents),epochs=epochs)
model.save("./word2vec150d/word2vec_{}.model".format(epochs))
任何帮助将不胜感激!
【问题讨论】: