【问题标题】:Relation between features for classification and clustering分类和聚类特征之间的关系
【发布时间】:2017-06-29 14:25:00
【问题描述】:

我是机器学习的新手,我有以下问题。假设我已经对一些数据实现了分类算法,并且识别出分类算法的最佳特征组合。如果有一天我从同一资源中获取数据,而这些数据在之前的分类任务中缺少目标特征,我可以将分类的最佳特征组合直接用于聚类任务吗? (我知道我可以使用我训练的模型来预测数据的目标,但我只想知道分类和聚类算法之间的最佳特征组合是否相同)

我已经搜索了网站和我知道的任何资源,但我找不到我的问题的答案,有人可以告诉我或给我一个链接吗?谢谢!

【问题讨论】:

    标签: machine-learning classification cluster-analysis


    【解决方案1】:

    可能还不够好。

    例如,可以分析决策树或随机森林以获得特征的重要性。但这不会告诉你需要什么样的预处理(特别是缩放和加权)才能对它们进行聚类(特别是分类特征很难使用,任何不连续或倾斜​​的东西都很难)。

    此外,数据往往会随着时间而变化。曾经很重要的功能(例如 Facebook 点赞)现在已无用。

    【讨论】:

      【解决方案2】:

      我会说是的,只要目标的性质在两种情况下都是相同的。理想情况下,我们想要的是在 N 空间中相互正交(垂直)的可处理数量的特征,以便每个特征都能最大程度地促进预测。

      举个具体的例子,T恤衫是大码还是小码。给你的数据显示,在制造过程中,有一点材料收缩,这意味着 T 恤出来的时候有点不规则,并且收缩在高度和宽度之间变化,但不会很大。数据显示高度、宽度和颜色,您要决定它们是在大组中还是在小组中。您发现高度和宽度很重要,但颜色并不重要,因此您决定将高度和宽度作为分类特征。

      重要的一点是,这两个特征已被确定为彼此最正交的特征,这应该适用于分类或聚类上下文。集群的数量仍然是一个有待检验的因素。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2013-07-28
        • 2017-02-21
        • 2014-05-20
        • 2018-03-11
        • 2018-01-15
        • 2012-03-21
        • 1970-01-01
        相关资源
        最近更新 更多