【问题标题】:Is there any way to understand the output features of the word2vec?有什么方法可以理解 word2vec 的输出特征吗?
【发布时间】:2020-03-06 18:52:44
【问题描述】:

我想了解 word2vec 输出中每个维度的含义。

例如,如果我用一个热编码变量制作决策树,我可以准确判断分类变量中的哪个类别负责拆分。但是,如果我使用嵌入,我无法解释这些分裂的原因。

我知道 Embedding(King) - Embedding(Man) + Embedding(Woman) = Embedding(Queen) 的著名例子。从这个例子中,我们可以说已经理解了“版税”的特性。

我想一种方法是根据余弦相似度对相似的数据点进行聚类,以获取有关输出特征是什么的一些上下文。

例如,如果我将数据点的最近 3 个邻居设为“公里”、“英寸”和“英里”。我可以推断“长度”是决策树中分裂的原因。但是,我想知道是否还有其他方法。

【问题讨论】:

    标签: machine-learning word2vec word-embedding


    【解决方案1】:

    首先,词嵌入大多以无监督方式生成。因此,当它播种时,实际上可以找到不同的属性。事实上,一些 Word2Vec 运行可能永远不会获取版税或长度的属性。

    此外,就它们的顺序而言,这些属性有些无意义。只要在同一个地方找到相同的属性,这一切都很重要。

    基于此,Word Embeddings 从根本上需要进行调查,以将其项目与我们将其标记为的项目相关联。有趣的问题是,是否存在与我们的概念不相关但仍然对词嵌入有用的项目。

    您可能感兴趣的是语义本体以及它们如何关联不同的语义概念。

    【讨论】:

      猜你喜欢
      • 2015-06-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-07-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多