【问题标题】:How to sentence embed from gensim Word2Vec embedding vectors?如何从 gensim Word2Vec 嵌入向量中嵌入句子?
【发布时间】:2018-11-22 12:26:22
【问题描述】:

我有一个包含描述的pandas 数据框。我想根据CBOW 的含义对描述进行聚类。我现在的挑战是将每一行嵌入到相等维度的向量中。起初我使用gensim 训练词向量:

from gensim.models import Word2Vec

vocab = pd.concat((df['description'], df['more_description']))
model = Word2Vec(sentences=vocab, size=100, window=10, min_count=3, workers=4, sg=0)

然而,我现在对如何将我的 df 中的完整句子替换为相同维度的文档向量有点困惑。

目前,我的解决方法是用一个向量重新排列每行中的每个单词,然后应用 PCA 维数缩减以使每个向量具有相似的维数。 gensim 有没有更好的方法,所以我可以这样说:

df['description'].apply(model.vectorize)

【问题讨论】:

    标签: python-3.x gensim word2vec word-embedding doc2vec


    【解决方案1】:

    我认为您正在寻找句子嵌入。有很多方法可以从词嵌入生成句子嵌入。您可能会发现这很有用:https://stats.stackexchange.com/questions/286579/how-to-train-sentence-paragraph-document-embeddings

    【讨论】:

      猜你喜欢
      • 2017-07-22
      • 1970-01-01
      • 2020-04-07
      • 2020-12-26
      • 1970-01-01
      • 2021-11-13
      • 1970-01-01
      • 2018-11-02
      • 2019-11-26
      相关资源
      最近更新 更多