【发布时间】:2017-10-11 18:34:05
【问题描述】:
我想按多个变量对我的数据集进行分组,而不是对这些组进行标识。当我使用 dplyr 和 group_indices 仅按一个变量分组时,我可以识别组。 但是我想通过在一组特定变量中的至少一个上具有相同的值来对案例进行分组,然后确定这些案例所属的组。如何在 R 中做到这一点?
我有以下数据集
NPI name adress phone
1 1 1 1
2 1 1 1
3 2 2 2
4 2 3 3
5 3 4 4
6 3 4 5
7 4 5 6
8 5 6 6
9 6 7 7
10 7 8 8
11 1 9 9
我希望在我列出的三个变量(姓名、地址、电话号码)中至少有一个共同的情况下对案例进行分组。 应该将彼此最相似的案例分组到最不相似的案例上。 所以我想创建一个分组变量,如果它们在同一个组中,它会给案例相同的值。 您可以假设姓名>地址>电话
的层次结构 NPI name adress phone org
1 1 1 1 1
2 1 1 1 1
3 2 2 2 2
4 2 3 3 2
5 3 4 4 3
6 3 4 5 3
7 4 5 6 4
8 5 6 6 4
9 6 7 7 5
10 7 8 8 6
11 1 9 9 1
在我的真实数据集中,我没有数字,只有姓名、实际地址和电话号码。所以我使用的所有变量都是字符串变量。
【问题讨论】:
-
为什么最后一个值是1
-
因为它与前两种情况同名
-
我们可以假设一个层次结构(看起来是隐含的)。如:名称 > 地址 > 组织?
-
是的!尽管 org 不是应该对案例进行分组的三个变量的一部分,但 org 本身就是分组变量,因此 Name>Address>phone