【问题标题】:Working with google word2vec .bin files in gensim python在 gensim python 中使用 google word2vec .bin 文件
【发布时间】:2015-06-11 00:16:26
【问题描述】:

我正在尝试从 google word2vec 网站 (freebase-vectors-skipgram1000.bin.gz) 加载预训练的 .bin 文件到 word2vec 的 gensim 实现中开始。模型加载正常,

使用..

model = word2vec.Word2Vec.load_word2vec_format('...../free....-en.bin', binary= True)

并创建一个

>>> print model
<gensim.models.word2vec.Word2Vec object at 0x105d87f50>

但是当我运行最相似的功能时。它无法在词汇表中找到单词。我的错误代码如下。

任何想法我哪里出错了?

>>> model.most_similar(['girl', 'father'], ['boy'], topn=3)
2013-10-11 10:22:00,562 : WARNING : word ‘girl’ not in vocabulary; ignoring it
2013-10-11 10:22:00,562 : WARNING : word ‘father’ not in vocabulary; ignoring it
2013-10-11 10:22:00,563 : WARNING : word ‘boy’ not in vocabulary; ignoring it
Traceback (most recent call last):
File “”, line 1, in
File “/....../anaconda/python.app/Contents/lib/python2.7/site-packages/gensim-0.8.7/py2.7.egg/gensim/models/word2vec.py”, line 312, in most_similar
raise ValueError(“cannot compute similarity with no input”)
ValueError: cannot compute similarity with no input

【问题讨论】:

    标签: python gensim word2vec


    【解决方案1】:

    '...../free....-en.bin' 中的单词有

    zh/boardwalk_chapel en/mutsu_munemitsu en/goffstown en/yaw_axis en/john_e_fogarty_international_center en/francielle_manoel_alberto zh/shinji_harada

    所以当你寻找“女孩”时,它并不存在

    【讨论】:

      【解决方案2】:

      为了扩展 Sergio 的回答,“单词”实际上是 Freebase 标识符,因此“女孩”由 /en/girl (对于 freebase-vectors-skipgram1000-en.bin.gz)或其 MID 等价物 @ 表示987654324@(用于freebase-vectors-skipgram1000.bin.gz)

      https://www.freebase.com/m/05r655

      https://www.freebase.com/en/girl

      【讨论】:

        猜你喜欢
        • 2017-07-16
        • 1970-01-01
        • 2023-03-24
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2019-07-02
        • 1970-01-01
        相关资源
        最近更新 更多