【发布时间】:2017-09-19 05:24:52
【问题描述】:
我正在尝试使用 scikit-learn 在经过训练的 k-means 模型中为一堆测试文档预测一个集群。
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(train_documents)
k = 10
model = KMeans(n_clusters=k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)
10 个集群的模型生成没有任何问题。但是当我尝试预测文档列表时,我得到了一个错误。
predicted_cluster = model.predict(test_documents)
错误信息:
ValueError: 无法将字符串转换为浮点数...
是否需要使用 PCA 来减少特征数量,还是需要对文本文档进行预处理?
【问题讨论】:
标签: python scikit-learn cluster-analysis k-means pca