【问题标题】:Intuitive understanding of Word2Vec transformWord2Vec变换的直观理解
【发布时间】:2021-10-10 18:42:28
【问题描述】:

我对 Word2Vec 变换过程的理解是,在使用大量句子语料库训练模型后,模型将学习向量空间,我们可以使用词向量来变换 k的句子> 单词到长度为 D 的单个向量,其中 D 是维数。 k 个单词将被转换为一个 k * V one-hot 编码矩阵,其中 V 是词汇表的大小。然后计算输入隐藏权重 (V * D)。结果是一个 k * V 矩阵。如果我们对列中的k个元素进行平均,我们可以得到长度为D的最终向量。

我的问题是,直观地说,长度为 D 的最终向量到底意味着什么。当您对 k 行进行平均时,是否会删除某些内容?此外,诸如“婴儿喜欢胡萝卜”之类的句子。和“carrots love baby”会转化成同一个向量,但是两个句子完全不同。

【问题讨论】:

    标签: word2vec


    【解决方案1】:

    Word2Vec not“将一个包含 k 个单词的句子转换为长度为 D 的单个向量”。

    还有其他算法可以将多个单词的句子/文本转换为单个向量。

    但 word2vec 使用大量文本来学习单个单词的向量。 (它通过优化一些最初的随机词向量来更好地预测附近的相邻词。)

    最后,每个单词都有一个向量 - 而不是每个句子。

    (当然,您可以将一堆词向量平均在一起以获得更长的词运行向量,这对于一些简单的任务来说是一种不错的基线方法。但这是 word2vec 的下游应用程序,相对而言粗制滥造。)

    【讨论】:

    • 感谢@gojomo 回答这个问题。我觉得我的问题有点不准确。我的意思是,在 word2vec 使用大量文本集合来学习单个单词的向量之后,我们可以使用学习的词向量来转换一些句子。但这种转变是什么意思???
    • 你建议如何使用学习到的词向量来转换一些句子?这种转换意味着什么将取决于您选择的转换。我提到的基线方法,将所有词向量平均在一起,为你提供一个向量,词的维数相同,用于词组。它就像整个文本的词向量。它通常对某些任务有帮助,并且与单个词向量模糊地可比以帮助可解释性,但仍然是从文本中获取向量的一种非常弱的方法,因为它不了解词序/语法/等等
    • 有道理。我正在尝试将一些句子与一些锚词匹配。我想平均方法实际上对我的项目有意义。非常感谢您与我讨论这个问题!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-14
    • 1970-01-01
    • 2019-07-01
    • 2018-05-26
    • 1970-01-01
    • 2014-05-31
    相关资源
    最近更新 更多