【发布时间】:2019-01-23 11:09:55
【问题描述】:
我正在研究 Movielens 数据集,我想在其上应用 K-Means 算法。我想知道为此目的选择哪些列以及如何进一步进行或者我应该直接使用 KNN 算法。
【问题讨论】:
标签: python k-means data-science scikit-image
我正在研究 Movielens 数据集,我想在其上应用 K-Means 算法。我想知道为此目的选择哪些列以及如何进一步进行或者我应该直接使用 KNN 算法。
【问题讨论】:
标签: python k-means data-science scikit-image
好吧,K-Means 是一种聚类算法,因此您可以使用它来根据类型对电影进行聚类。 列:movieId、流派
有一个新数据集,其中包含每部电影的相关标签,因此您也可以根据这些标签对它们进行聚类。
不过,您也可以利用 K-Nearest Neighbors 找出用户之间的相似之处。
在评论数据集中,您将使用以下列: 列:用户 ID、评级
在电影数据集中,您将使用movieId。 这个想法是找出每个用户看过哪些电影,然后使用这些电影来计算用户的相似度指数(例如;user1,user2)
【讨论】: