【发布时间】:2018-08-04 08:31:20
【问题描述】:
我尝试关注this.
但是有些我浪费了很多时间却没有任何用处。
我只想在我自己的语料库(~900Mb corpus.txt 文件)上训练一个GloVe 模型。
我下载了上面链接中提供的文件并使用 cygwin 编译它(在编辑 demo.sh 文件并将其更改为 VOCAB_FILE=corpus.txt 。我应该保持 CORPUS=text8 不变吗?)
输出是:
- cooccurrence.bin
- cooccurrence.shuf.bin
- 文本8
- corpus.txt
- vectors.txt
如何使用这些文件在 python 上将其加载为GloVe 模型?
【问题讨论】:
标签: nlp stanford-nlp gensim word2vec glove