【问题标题】:Word2Vec Tensorflow tutorial weird outputWord2Vec Tensorflow 教程奇怪的输出
【发布时间】:2021-10-19 10:10:01
【问题描述】:

我正在 tensorflow 试用 Word2Vec 教程(请参阅此处:https://www.tensorflow.org/tutorials/text/word2vec

虽然看起来一切正常,但输出有点出乎我的意料,尤其是 PCA 中的小集群。嵌入维度中的“壁橱”词也没有多大意义,尤其是与其他示例相比。

我做错了什么(微不足道的)吗?或者这是预期的?

为了完整起见,我在 nvidia-docker 镜像中运行了这个,但也发现了仅运行 cpu 的类似结果。

这是显示集群的投影嵌入。

【问题讨论】:

    标签: tensorflow pca word2vec embedding


    【解决方案1】:

    可能有多种原因。

    一个原因是,这是由于嵌入空间的所谓hubness problem,这是高维空间的一个神器。有些词最终靠近大部分空间,并在最近邻搜索中充当某种枢纽,因此通过这些词,您可以从任何地方快速到达任何地方。

    另一个原因可能是模型只是针对这个特定单词训练不足。词嵌入通常在非常大的数据集上进行训练,这样每个词都会出现在足够多的上下文中。如果一个词出现的频率不够高或在过于模棱两可的上下文中出现,那么它最终也会基本上与所有事物相似。

    【讨论】:

    • 我明白了。所以我可以通过增加这些词的最少出现次数来解决这个问题。我会试一试,谢谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-04-15
    • 2021-02-16
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多