【发布时间】:2012-01-17 01:11:01
【问题描述】:
假设我正在使用这个电影评分数据集:http://www.grouplens.org/node/73
它包含格式为的文件中的评级 userID::movieID::rating::timestamp
鉴于此,我想在 R 项目中构建一个特征矩阵,其中每一行对应一个用户,每一列表示用户对电影的评分(如果有的话)。
例如,如果数据文件包含
1::1::1::10 2::2::2::11 1::2::3::12 2::1::5::13 3::3::4::14那么输出矩阵将如下所示:
用户 ID、电影 1、电影 2、电影 3 1, 1, 3, 不适用 2, 5, 2, 不适用 3,北美,北美,3那么在 R 项目中是否有一些内置的方法来实现这一点。我写了一个简单的 python 脚本来做同样的事情,但我敢打赌有更有效的方法来完成这个。
【问题讨论】:
-
reshape 很可能会起作用,或者 plyr 包上的东西
-
除了使用稀疏矩阵之外,我建议您查看有关 R 和稀疏矩阵的其他问题,以了解相关问题:stackoverflow.com/questions/tagged/r+sparse-matrix
标签: r data-mining sparse-matrix