【发布时间】:2017-09-12 22:06:45
【问题描述】:
我有一个 CSV 格式的大型数据集:
- 有 50,000 行,每行是一个事务。
- 每笔交易最多有 5 件商品,最少有 1 件商品。
- 有 5000 种不同的可能项目值。
- 交易中没有重复的项目。
将 CSV 加载到 RStudio 并应用 unclass() 后,我应用 as(...,"transactions")。
结果是这样的:
# transactions in sparse format with
# 5 transactions (rows) and
# 1455 items (columns)
现在只有 5 笔交易,而不是 50,000 笔交易。
所有交易都去哪儿了?矩阵是否以某种方式转置(因为结果中的行数等于我的 CSV 的列数)?
这可能是数据预处理问题,但根据this post我的输入数据应该有正确的格式。
[我是第一次在这里发帖,对 R/RStudio 还很陌生。]
【问题讨论】: