Word2Vec变换的直观理解答案

【问题标题】：Intuitive understanding of Word2Vec transformWord2Vec变换的直观理解
【发布时间】：2021-10-10 18:42:28
【问题描述】：

我对 Word2Vec 变换过程的理解是，在使用大量句子语料库训练模型后，模型将学习向量空间，我们可以使用词向量来变换 k的句子> 单词到长度为 D 的单个向量，其中 D 是维数。 k 个单词将被转换为一个 k * V one-hot 编码矩阵，其中 V 是词汇表的大小。然后计算输入隐藏权重 (V * D)。结果是一个 k * V 矩阵。如果我们对列中的k个元素进行平均，我们可以得到长度为D的最终向量。

我的问题是，直观地说，长度为 D 的最终向量到底意味着什么。当您对 k 行进行平均时，是否会删除某些内容？此外，诸如“婴儿喜欢胡萝卜”之类的句子。和“carrots love baby”会转化成同一个向量，但是两个句子完全不同。

【问题讨论】：

标签： word2vec

【解决方案1】：

Word2Vec not“将一个包含 k 个单词的句子转换为长度为 D 的单个向量”。

还有其他算法可以将多个单词的句子/文本转换为单个向量。

但 word2vec 使用大量文本来学习单个单词的向量。（它通过优化一些最初的随机词向量来更好地预测附近的相邻词。）

最后，每个单词都有一个向量 - 而不是每个句子。

（当然，您可以将一堆词向量平均在一起以获得更长的词运行向量，这对于一些简单的任务来说是一种不错的基线方法。但这是 word2vec 的下游应用程序，相对而言粗制滥造。）

【讨论】：

感谢@gojomo 回答这个问题。我觉得我的问题有点不准确。我的意思是，在 word2vec 使用大量文本集合来学习单个单词的向量之后，我们可以使用学习的词向量来转换一些句子。但这种转变是什么意思？？？
你建议如何使用学习到的词向量来转换一些句子？这种转换意味着什么将取决于您选择的转换。我提到的基线方法，将所有词向量平均在一起，为你提供一个向量，词的维数相同，用于词组。它就像整个文本的词向量。它通常对某些任务有帮助，并且与单个词向量模糊地可比以帮助可解释性，但仍然是从文本中获取向量的一种非常弱的方法，因为它不了解词序/语法/等等
有道理。我正在尝试将一些句子与一些锚词匹配。我想平均方法实际上对我的项目有意义。非常感谢您与我讨论这个问题！