有什么方法可以理解 word2vec 的输出特征吗？答案

【问题标题】：Is there any way to understand the output features of the word2vec?有什么方法可以理解 word2vec 的输出特征吗？
【发布时间】：2020-03-06 18:52:44
【问题描述】：

我想了解 word2vec 输出中每个维度的含义。

例如，如果我用一个热编码变量制作决策树，我可以准确判断分类变量中的哪个类别负责拆分。但是，如果我使用嵌入，我无法解释这些分裂的原因。

我知道 Embedding(King) - Embedding(Man) + Embedding(Woman) = Embedding(Queen) 的著名例子。从这个例子中，我们可以说已经理解了“版税”的特性。

我想一种方法是根据余弦相似度对相似的数据点进行聚类，以获取有关输出特征是什么的一些上下文。

例如，如果我将数据点的最近 3 个邻居设为“公里”、“英寸”和“英里”。我可以推断“长度”是决策树中分裂的原因。但是，我想知道是否还有其他方法。

【问题讨论】：

【解决方案1】：

首先，词嵌入大多以无监督方式生成。因此，当它播种时，实际上可以找到不同的属性。事实上，一些 Word2Vec 运行可能永远不会获取版税或长度的属性。

此外，就它们的顺序而言，这些属性有些无意义。只要在同一个地方找到相同的属性，这一切都很重要。

基于此，Word Embeddings 从根本上需要进行调查，以将其项目与我们将其标记为的项目相关联。有趣的问题是，是否存在与我们的概念不相关但仍然对词嵌入有用的项目。

您可能感兴趣的是语义本体以及它们如何关联不同的语义概念。

【讨论】：