【发布时间】:2017-05-12 06:09:43
【问题描述】:
数据框的前两列构成一个复合键,并且有一列 char 类型的列包含逗号分隔的整数。我的目标是创建一个包含字符串中唯一整数计数的列。
我知道使用 str_split_fixed 将字符串转换为列然后计算唯一值的方法,但是由于字符串的长度,添加了大量列并且一切都滞后。还有其他方法吗?
实际数据集包含 500k 行和 53 列。
样本数据集:
df
c1 c2 c3
aa 11 1,13,4,5,4,7,9
bb 22 2,5,2,4,5,7,11,
cc 33 11,14,3,1,
dd 44 1,1,2,4,5,6,15,
ee 55 4,3,3,1,14,17,
想要的输出:
c1 c2 c3 c4
------ | ------ | ------ | -----
aa | 11 | 1,13,4,5,4,7,9 | 6
------ | ------ | ------ | -----
bb | 22 | 2,5,2,4,5,7,11, | 5
------ | ------ | ------ | -----
cc | 33 | 11,14,3,1, | 4
------ | ------ | ------ | -----
dd | 44 | 1,1,2,4,5,6,15, | 6
------ | ------ | ------ | -----
ee | 55 | 4,3,3,1,7,17,7, | 5
------ | ------ | ------ | -----
任何帮助将不胜感激!
【问题讨论】: