【发布时间】:2017-03-14 08:41:03
【问题描述】:
我试图将数据框转换为 realRatingMatrix。但为此,我首先将数据帧转换为矩阵,将矩阵转换为 realRatingMatrix。
数据帧 df 包含 475984 rows 和 3 columns。Column1 是 productID,column2 是 customer names 和 column3 包含 rating of the product相应的用户
后续步骤:
1.去除缺失值
2. 数据去重
3. 将dataframe转换成矩阵
4. 测试矩阵
library(recommenderlab)
sapply(df, function(x) sum(is.na(x)))
# 100 missing values in column2
df <- df[-which(is.na(df$col2) == TRUE), ]
sum(duplicated(df))
# 580 duplicates
df <- df[-which(duplicated(df) == TRUE), ]
# Converting the dataframe into realratingMatrix
df_matrix <- data.matrix(df)
# Testing matrix
str(df_matrix)
df1 <- as.data.frame(df_matrix)
将数据框转换为矩阵时,我收到以下警告消息:
警告消息:
在 data.matrix(beer_data) 中:强制引入的 NAs
现在,当我将创建的矩阵转换为数据框时,我的客户名称列(column2)只有 38 个条目,其余均为 NA。
有人可以建议一些方法来更正我的代码并获得所需的输出。
【问题讨论】:
-
能否提供一些模拟或样本数据?