【发布时间】:2020-03-06 18:52:44
【问题描述】:
我想了解 word2vec 输出中每个维度的含义。
例如,如果我用一个热编码变量制作决策树,我可以准确判断分类变量中的哪个类别负责拆分。但是,如果我使用嵌入,我无法解释这些分裂的原因。
我知道 Embedding(King) - Embedding(Man) + Embedding(Woman) = Embedding(Queen) 的著名例子。从这个例子中,我们可以说已经理解了“版税”的特性。
我想一种方法是根据余弦相似度对相似的数据点进行聚类,以获取有关输出特征是什么的一些上下文。
例如,如果我将数据点的最近 3 个邻居设为“公里”、“英寸”和“英里”。我可以推断“长度”是决策树中分裂的原因。但是,我想知道是否还有其他方法。
【问题讨论】:
标签: machine-learning word2vec word-embedding