【发布时间】:2018-11-22 12:26:22
【问题描述】:
我有一个包含描述的pandas 数据框。我想根据CBOW 的含义对描述进行聚类。我现在的挑战是将每一行嵌入到相等维度的向量中。起初我使用gensim 训练词向量:
from gensim.models import Word2Vec
vocab = pd.concat((df['description'], df['more_description']))
model = Word2Vec(sentences=vocab, size=100, window=10, min_count=3, workers=4, sg=0)
然而,我现在对如何将我的 df 中的完整句子替换为相同维度的文档向量有点困惑。
目前,我的解决方法是用一个向量重新排列每行中的每个单词,然后应用 PCA 维数缩减以使每个向量具有相似的维数。 gensim 有没有更好的方法,所以我可以这样说:
df['description'].apply(model.vectorize)
【问题讨论】:
标签: python-3.x gensim word2vec word-embedding doc2vec