【发布时间】:2017-03-13 03:15:12
【问题描述】:
我执行了 scikit-learn k-means 算法并得到了生成的质心。我有一个新文档(不在初始集合中),我想计算每个质心与新文档之间的距离,以了解它应该放在哪个集群中。
是否有内置函数可以实现这一点,还是我应该手动编写相似函数?
【问题讨论】:
标签: python machine-learning scikit-learn cluster-analysis k-means
我执行了 scikit-learn k-means 算法并得到了生成的质心。我有一个新文档(不在初始集合中),我想计算每个质心与新文档之间的距离,以了解它应该放在哪个集群中。
是否有内置函数可以实现这一点,还是我应该手动编写相似函数?
【问题讨论】:
标签: python machine-learning scikit-learn cluster-analysis k-means
您可以使用方法predict 获取矩阵X 中每个样本的最近聚类:
from sklearn.cluster import KMeans
model = KMeans(n_clusters=K)
model.fit(X_train)
label = model.predict(X_test)
【讨论】:
KMeans 的fit 方法之前在X_train+X_test 上使用vectorizer,或者避免仅在X_train 上安装vectorizer。