【发布时间】:2015-04-18 19:30:12
【问题描述】:
我是 R 和集群世界的新手。我正在使用购物数据集从中提取特征,以识别有意义的东西。
到目前为止,我已经学会了如何合并文件、删除 na.、计算误差平方和、计算平均值、按组汇总、进行 K 表示聚类并绘制结果 X、Y。
但是,我对如何查看这些结果或确定什么是有用的集群感到非常困惑?我是在重复某些事情还是错过了某些事情?我也对绘制 X Y 变量感到困惑。
以下是我的代码,也许我的代码可能是错误的。能否请你帮忙。任何帮助都会很棒。
# Read file
mydata = read.csv(file.choose(), TRUE)
#view the file
View(mydata)
#create new data set
mydata.features = mydata
mydata.features <- na.omit(mydata.features)
wss <- (nrow(mydata.features)-1)*sum(apply(mydata.features,2,var))
for (i in 2:20) wss[i] <- sum(kmeans(mydata.features, centers=i)$withinss)
plot(1:20, wss, type="b", xlab="Number of Clusters", ylab="Within groups sum of squares")
# K-Means Cluster Analysis
fit <- kmeans(mydata.features, 3)
# get cluster means
aggregate(mydata.features,by=list(fit$cluster),FUN=mean)
# append cluster assignment
mydata.features <- data.frame(mydata.features, fit$cluster)
results <- kmeans(mydata.features, 3)
plot(mydata[c("DAY","WEEK_NO")], col= results$cluster
样本数据变量,以下是我数据集中的所有变量,其购物数据集收集了 2 年以上
PRODUCT_ID - 唯一标识每个产品 home_key - 唯一标识每个家庭 BASKET_ID - 唯一标识购买场合 DAY - 交易发生的日期 QUANTITY - 旅行期间购买的产品数量 SALES_VALUE - 零售商从销售中获得的美元金额 STORE_ID - 标识唯一商店 RETAIL_DISC - 由于制造优惠券而应用的折扣 TRANS_TIME - 交易发生的时间 WEEK_NO - 交易发生的周数 1-102 制造商 - 将同一制造商的产品链接在一起的代码 部门 - 将相似的产品组合在一起 BRAND - 表示私人或国家标签乐队 COMMODITY_DESC - 在较低级别将相似产品组合在一起 SUB_COMMODITY_DESC - 在最低级别将相似产品组合在一起
【问题讨论】:
-
您可能对
cluster包中的函数clusGap感兴趣。它为许多可能的 k 值计算“聚类优度”统计量。你的问题是不可重现的,因为你没有提供样本数据。此外,您关于如何识别有用集群的问题是统计和机器学习中一个复杂的、未解决的问题。不是真正的编程问题。 -
嗨,我刚刚在我的数据集中添加了所有变量。我无法理解可以使用哪些特征来识别数据集中有意义的内容?