【问题标题】:In this case, what's better: classification or clustering? [closed]在这种情况下,哪个更好:分类还是聚类? [关闭]
【发布时间】:2019-09-26 16:59:09
【问题描述】:

我从不同来源的 FB、Twitter、Linkedin 收集数据,然后将它们制成结构化格式。现在的结果是:我有一个包含 10000 行(10000 人)的 csv 文件,相关的数据是关于他们的姓名、年龄、兴趣和购买习惯。

我真的被困在这一步:分类或聚类。对于分类,我真的没有预定义的类或模型供我的用户对其进行分类。

对于聚类:我开始计算相似度和 KMeans,但仍然无法得到我想要的结果。在进入协作过滤的下一步之前,我该如何决定选择什么?

【问题讨论】:

  • “你想要的结果”是什么?

标签: classification cluster-analysis


【解决方案1】:

首先,您必须了解clusteringpre-processing 活动/任务。聚类的思想是识别具有相似属性的对象并将它们分组。聚类过程可以用放牛来理解。其中骑师将松散的牛群(读取数据点)分组。

注意:如果您正在查看分区聚类算法系列,包括K-meansk-modesk-prototype 等。算法k-means 仅适用于数值数据。 K-modes 仅适用于分类数据,k-prototype 适用于数值和分类数据。

问题:数据是否经过预处理?如果答案是否定的,那么您可以尝试以下步骤;

  1. 数据(列值)都是分类(=文本)格式还是数字或混合格式?

    一个。如果都是分类的,则对它们进行离散化或分箱或区间缩放。

    b.如果混合,则仅离散化或 bin 或区间缩放分类值

    c。对数值和分类数据执行缺失值和异常值处理。这将有助于保持最大方差并降低维度。

    d。将数值标准化为中位数为零。

  2. 现在应用合适的聚类算法(根据您的问题)来确定模式。一旦你找到了这些模式,你就可以给它们贴上标签。一旦识别出的模式被标记,此后或随后可以使用分类算法将classify任何新的传入数据点归入适当的类别。

【讨论】:

    猜你喜欢
    • 2016-03-21
    • 2011-12-23
    • 2012-06-19
    • 1970-01-01
    • 2015-05-08
    • 2020-12-26
    • 1970-01-01
    • 2013-04-17
    • 2016-12-24
    相关资源
    最近更新 更多