Word2Vec Tensorflow 教程奇怪的输出

【问题标题】：Word2Vec Tensorflow tutorial weird outputWord2Vec Tensorflow 教程奇怪的输出
【发布时间】：2021-10-19 10:10:01
【问题描述】：

我正在 tensorflow 试用 Word2Vec 教程（请参阅此处：https://www.tensorflow.org/tutorials/text/word2vec）

虽然看起来一切正常，但输出有点出乎我的意料，尤其是 PCA 中的小集群。嵌入维度中的“壁橱”词也没有多大意义，尤其是与其他示例相比。

我做错了什么（微不足道的）吗？或者这是预期的？

为了完整起见，我在 nvidia-docker 镜像中运行了这个，但也发现了仅运行 cpu 的类似结果。

这是显示集群的投影嵌入。

【问题讨论】：

【解决方案1】：

可能有多种原因。

一个原因是，这是由于嵌入空间的所谓hubness problem，这是高维空间的一个神器。有些词最终靠近大部分空间，并在最近邻搜索中充当某种枢纽，因此通过这些词，您可以从任何地方快速到达任何地方。

另一个原因可能是模型只是针对这个特定单词训练不足。词嵌入通常在非常大的数据集上进行训练，这样每个词都会出现在足够多的上下文中。如果一个词出现的频率不够高或在过于模棱两可的上下文中出现，那么它最终也会基本上与所有事物相似。

【讨论】：