【发布时间】:2017-04-10 11:03:23
【问题描述】:
我使用Gensim Word2Vec 在我的数据库中训练单词集。
我的PostgreSQL 数据库中有大约 400,000 个短语(每个短语都很短。总共 700MB)。
这就是我使用Django ORM 训练这些数据的方式:
post_vector_list = []
for post in Post.objects.all():
post_vector = my_tokenizer(post.category.name)
post_vector.extend(my_tokenizer(post.title))
post_vector.extend(my_tokenizer(post.contents))
post_vector_list.append(post_vector)
word2vec_model = gensim.models.Word2Vec(post_vector_list, window=10, min_count=2, size=300)
但是这份工作需要很多时间,感觉效率不高。
特别是,创建post_vector_list 部分需要大量时间和空间..
我想提高训练速度,但不知道怎么做。
希望得到您的建议。谢谢。
【问题讨论】: