【发布时间】:2013-06-07 10:30:33
【问题描述】:
我想要一些关于使用 python 和 scikits.learn 的最佳聚类技术的建议。我们的数据来自Phenotype Microarray,它测量细胞在各种底物上随时间的代谢活动。输出是一系列 sigmoid 曲线,我们通过拟合到 sigmoid 函数来提取一系列曲线参数。
我们希望使用固定数量的集群,通过集群化对这个活动曲线进行“排名”。现在我们使用包提供的 k-means 算法,(init='random', k=10, n_init=100, max_iter=1000)。输入是一个矩阵,每个样本有 n_samples 和 5 个参数。样本的数量可能会有所不同,但通常约为数千(即 5'000)。聚类似乎高效且有效,但我希望能就不同方法或对聚类质量进行评估的最佳方式提出任何建议。
这里有几个图表可能会有所帮助:
输入参数的散点图(其中一些非常相关),单个样本的颜色与分配的聚类相关。
从中提取输入参数的 sigmoid 曲线,其颜色与其分配的集群相关
编辑
下面是一些肘部图和每个簇数的轮廓得分。
【问题讨论】:
标签: python scikit-learn cluster-analysis data-mining