【发布时间】:2015-11-13 09:04:37
【问题描述】:
我有一个 panda DataFrame,我想对每个列进行聚类。我正在使用 sklearn,这就是我所拥有的:
data= pd.read_csv("data.csv")
data=pd.DataFrame(data)
data=data.set_index("Time")
#print(data)
cluster_numbers=2
list_of_cluster=[]
for k,v in data.iteritems():
temp=KMeans(n_clusters=cluster_numbers)
temp.fit(data[k])
print(k)
print("predicted",temp.predict(data[k]))
list_of_cluster.append(temp.predict(data[k]))
当我尝试运行它时,我遇到了这个错误:ValueError: n_samples=1 should be >= n_clusters=2
我想知道问题出在哪里,因为我的样本数量多于集群数量。任何帮助将不胜感激
【问题讨论】:
标签: python pandas machine-learning scikit-learn cluster-analysis