【发布时间】:2015-05-22 04:49:20
【问题描述】:
我刚开始使用电子商务零售业务的 R 对客户数据库进行细分。我寻求一些关于进行此练习的最佳方法的指导。 我已经搜索了这里已经发布的主题,并像 dist() 和 hclust() 一样尝试了它们。但是我遇到了一个或另一个问题并且无法克服它,因为我是使用 R 的新手。 这是我的问题的简要描述。 到目前为止,我有大约 480K 的客户记录。数据包含以下列:
- 电子邮件ID
- 性别
- 城市
- 到目前为止的总交易量
- 平均篮子价值
- 平均购物篮大小(一次交易中购买的商品数量)
- 每笔交易要求的平均折扣
- 自用户首次购买后的天数
- 两次购买之间的平均持续时间
- 自上次交易以来的天数
此练习的业务目标是确定最有利可图的细分市场,并使用广告系列鼓励这些细分市场的重复购买。我能否就如何成功地做到这一点获得一些指导,而不会遇到样本大小或列的数据类型等问题?
【问题讨论】:
-
您知道如何对数据进行子集化,以便获得仅包含数字数据的矩阵吗?如果是这样,请执行此操作,然后致电
dist和hclust。我想如果其中任何一个字段容易出现较大差异,您可能需要调整其中的一些字段。如果这些信息还不够,最好提供数据样本和问题所在,以便我们提供帮助。 -
感谢 blakeoft 的回复。以下是我必须提供的进一步信息:
-
1.恐怕我不知道如何对数据 2 进行子集化。是的,自上次交易以来的天数等某些字段差异很大。值范围从 1 到 1400
-
无法提供准确的数据样本。但是,我可以说这些列与问题中描述的列完全相同。前 3 列(电子邮件、性别和城市)是文本,其余是数字。这是我在尝试 dist() > d hc 65536L) stop("size 不能是 NA 也不能超过 65536") : 需要 TRUE/FALSE 的地方缺少值
-
这个问题更多地是关于集群技术而不是编程,应该在 Cross Validated 上提问,而不是 SO
标签: r cluster-analysis