【发布时间】:2020-04-06 04:37:41
【问题描述】:
我有一个包含所有分类变量的大型数据集 45421 * 12(行 * 列)。我的数据集中没有数值变量。我想使用这个数据集来构建无监督的聚类模型,但是在建模之前我想知道这个数据集的最佳特征选择模型。 而且我无法为这个数据集绘制肘曲线。我在 k 均值肘法中给出了 k = 1-1000 的范围,但它没有给出任何最佳集群图并且需要 8-10 小时才能执行。如果有人提出更好的解决方案来解决这个问题,那将是一个很大的帮助。
代码:
data = {'UserName':['infuk_tof', 'infus_llk', 'infaus_kkn', 'infin_mdx'],
'UserClass':['high','low','low','medium','high'],
'UserCountry':['unitedkingdom','unitedstates','australia','india'],
'UserRegion':['EMEA','EMEA','APAC','APAC'],
'UserOrganization':['INFBLRPR','INFBLRHC','INFBLRPR','INFBLRHC'],
'UserAccesstype':['Region','country','country','region']}
df = pd.DataFrame(data)
【问题讨论】:
-
你能举一个你的数据集的几行的例子吗?您是否使用 scikit-learn 进行 K-means?
-
是的。我正在将 scikit-learn 用于 K-means。这些是我的数据集的一些行。数据= {'用户名':['infuk_tof','infus_llk','infaus_kkn','infin_mdx'],'用户类':['高','低','低','中','高'] , 'UserCountry':['unitedkingdom','unitedstates','australia','india'], 'UserRegion':['EMEA','EMEA','APAC','APAC'], 'UserOrganization':[ 'INFBLRPR','INFBLRHC','INFBLRPR','INFBLRHC'] 'UserAccesstype':['Region','country','country','region']} df = pd.DataFrame(data)
标签: python machine-learning scikit-learn data-science unsupervised-learning