【发布时间】:2017-09-18 22:23:28
【问题描述】:
我有一个包含大约 15 列和超过 300 万行的大型数据集。
由于数据集太大,我想在上面使用multidplyr。
由于数据的原因,不可能将我的数据框分成 12 个部分。假设有 col1 和 col2 列,它们每个都有几个不同的值,但它们重复(分别在每一列中)。
如何创建 12 个(或 n)大小相似的组,每个组都包含在 col1 和 col2 中具有相同值的行?
示例:假设col1 foo 和col2 中的一个可能值是bar。然后它们将被分组,具有此值的所有行都将在一个组中。
为了让这个问题有意义,col1 和 col2 的唯一组合总是超过 12 个。
如果这是 python,我会尝试用 for 和 while 循环做一些事情,但因为这是 R,可能还有另一种方法。
【问题讨论】:
标签: r multithreading dataframe multidplyr