Python：基于 word2vec 对相似词进行聚类答案

【问题标题】：Python: clustering similar words based on word2vecPython：基于 word2vec 对相似词进行聚类
【发布时间】：2018-01-07 13:37:45
【问题描述】：

这可能是我要问的幼稚问题。我有一个标记化的语料库，我在上面训练了 Gensim 的 Word2vec 模型。代码如下

site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1")
site.download()
site.parse()

def clean(doc):
    stop_free = " ".join([i for i in word_tokenize(doc.lower()) if i not in stop])
    punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
    normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split())
    snowed = " ".join(snowball.stem(word) for word in normalized.split())
    return snowed   

b = clean(site.text)
model = gensim.models.Word2Vec([b],min_count=1,size=32)
print(model) ### Prints: Word2Vec(vocab=643, size=32, alpha=0.025) ####

为了对相似词进行聚类，我使用 PCA 来可视化相似词的聚类。但问题是它只形成了如图所示的大集群。

PCA 和散点图代码：

vocab = list(model.wv.vocab)
X = model[vocab]
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

df = pd.concat([pd.DataFrame(X_pca),
                pd.Series(vocab)],
               axis=1)
df.columns = ['x','y','word']

fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.scatter(df['x'],df['y'])
plt.show()

所以，我在这里有三个问题：

1) 仅仅一篇文章就足以明确划分集群吗？

2）如果我有一个用庞大语料库训练的模型，我想预测新文章中的相似词并以聚类的形式将它们（即我预测的文章中的词）可视化，有没有办法这样做？

非常感谢您的建议。谢谢。

【问题讨论】：

标签： python nlp cluster-analysis word2vec topic-modeling

【解决方案1】：

不，不是。作为参考，在维基百科（英文）上训练的常见 word2vec 模型包含大约 30 亿个单词。
您可以使用 KNN（或类似的东西）。 Gensim 有most_similar 函数来获取最接近的单词。使用降维（如 PCA 或 tsne），您可以获得一个不错的集群。（不确定gensim是否有tsne模块，但sklearn有，所以你可以使用它）

顺便说一句，你指的是一些图像，但它不可用。

【讨论】：

谢谢@lazary。是的，我完全同意训练数据大小的要求。然后我使用了 k-means 集群，这给了我很好的清晰集群。我在发布问题时附上了图片，但没有显示。当我尝试编辑时，有一个指向我的附件的链接。