【发布时间】:2016-02-07 07:01:36
【问题描述】:
我有一个表单的数据框:
ID col1 col2 col3 class
1 0.35 "A" "x" 'class1'
1 0.35 "B" "y" 'class1'
1 0.35 "A" "x" 'class1'
1 0.35 "A" "z" 'class1'
2 0.48 "B" "u" 'class2'
2 0.48 "A" "x" 'class2'
3 0.14 "C" "v" 'class3'
col2 和 col3 的维度非常高(总共超过 7000)。我必须对 ID 字段进行分类。因此,据我了解,我需要对数据进行分组。如果我使用 pandas group_by 并使用密集格式,内存就会爆炸。所以我想知道将数据输入分类器的最佳方法是什么?无论如何我可以根据 col2 和 col3 的计数对数据进行分组,同时保持 col1 不变并将输出放在稀疏矩阵中?
【问题讨论】:
标签: python pandas group-by scikit-learn classification