【问题标题】:Python K-Means Z-TransformPython K 均值 Z 变换
【发布时间】:2017-07-07 23:56:10
【问题描述】:

我想使用 k-means 对结果进行聚类,但我有很多问题。 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans

我的输入数据如下所示:

ID ABC XYZ UVW MSE 10 A X U 102000 12 B Y V 9000

是否可以使用 K-Means 对不同类型的输入数据进行聚类?比如我的字符和数字?

K-means 为聚类过程选择一个随机中心。如果我经常运行聚类,我的结果会发生变化还是输出稳定?

我想知道,哪个 ID 在哪个集群中。我如何从软件中获取这些信息?

编辑:

如果我只对我的 MSE 进行集群,然后我检查哪些属性会受到影响,这个解决方案是否有意义?

【问题讨论】:

  • Z 变换是什么意思?我知道的唯一 Z 变换是我们在信号处理中使用的那个... 重新表述你的前两个问题,它们很混乱
  • 我改变了我的问题,希望能更清楚

标签: python-2.7 scikit-learn transform cluster-analysis


【解决方案1】:

K-means 尝试最小化方差(=平方误差)

abcdef 的平方误差是多少?

仅用于连续数据。不要指望它会变魔术,你得到的通常只是你要找的一个非常糟糕的近似值。多次运行它通常会给你不同的结果,因为不存在“好”的结果。

【讨论】:

  • 如果我标准化我的变量会改善结果吗?如果是,哪种标准化是合适的(我读过一些关于 z 变换的内容)
  • 不,z 分数仅适用于已经 连续的数据。它不能帮助您从离散/分类数据中删除工件。
猜你喜欢
  • 2016-05-20
  • 1970-01-01
  • 2018-09-01
  • 2012-06-19
  • 2018-04-04
  • 2020-11-25
  • 2019-07-17
  • 2014-07-29
  • 2014-07-24
相关资源
最近更新 更多