【发布时间】:2017-04-10 14:31:03
【问题描述】:
我已经为我的母语下载了一个预训练的 word2vec 模型。
它有一个“news.model.bin”文件,当我解压缩它时,预计会看到一个txt 文件或pickle,但我在其中发现了另一个.bin 文件,其中包含如下混乱状态:
\09\b9\.,-;sdfkf %some really strange symbols and seem to be invalid symbols%
我什至无法复制它,因为我无法正常打开文件——它很重,我的笔记本电脑死了。 问题是:这个示例代码是否可以是 pre-tranes 模型?如果是,我应该如何处理?
附:链接,我从哪里得到模型(模型在页面底部):http://ling.go.mail.ru/dsm/ru/about
【问题讨论】:
-
一个快速的谷歌转向this。我认为它是 word2vec 的专用格式。希望对您有所帮助。
标签: python tensorflow theano word2vec