【发布时间】:2017-10-02 06:15:25
【问题描述】:
我已经使用 gensim 在我自己的语料库上训练了一个 doc2vec 和相应的 word2vec。我想使用带有单词的 t-sne 来可视化 word2vec。如图,图中的每个点都带有“单词”。
我在这里看到了一个类似的问题:t-sne on word2vec
按照它,我有这个代码:
导入 gensim 将 gensim.models 导入为 g
from sklearn.manifold import TSNE
import re
import matplotlib.pyplot as plt
modelPath="/Users/tarun/Desktop/PE/doc2vec/model3_100_newCorpus60_1min_6window_100trainEpoch.bin"
model = g.Doc2Vec.load(modelPath)
X = model[model.wv.vocab]
print len(X)
print X[0]
tsne = TSNE(n_components=2)
X_tsne = tsne.fit_transform(X[:1000,:])
plt.scatter(X_tsne[:, 0], X_tsne[:, 1])
plt.show()
这给出了一个带点但没有单词的图形。那就是我不知道哪个点代表哪个单词。如何显示带点的单词?
【问题讨论】:
标签: scikit-learn data-visualization gensim word2vec