【发布时间】:2019-06-24 11:50:04
【问题描述】:
我正在尝试使用英文维基百科转储 (https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2) 作为我使用 Gensim 预训练的 word2vec 模型。
from gensim.models.keyedvectors import KeyedVectors
model_path = 'enwiki-latest-pages-articles.xml.bz2'
w2v_model = KeyedVectors.load_word2vec_format(model_path, binary=True)
当我这样做时,我得到了
342 with utils.smart_open(fname) as fin:
343 header = utils.to_unicode(fin.readline(), encoding=encoding)
--> 344 vocab_size, vector_size = (int(x) for x in header.split()) # throws for invalid file format
345 if limit:
346 vocab_size = min(vocab_size, limit)
ValueError: invalid literal for int() with base 10: '<mediawiki'
我需要重新下载吗?
【问题讨论】: