【发布时间】:2020-11-20 19:36:19
【问题描述】:
我目前有一个如下所示的数据框:
census_2
# A tibble: 236,844 x 5
STATE RACE CENSUS2010POP POPESTIMATE2012
<chr> <dbl> <dbl> <dbl>
1 01 1 37991 37824
2 01 1 38150 38597
3 01 1 39738 37653
4 01 1 39827 38113
5 01 1 39353 39628
6 01 1 39520 39821
7 01 1 39813 39425
8 01 2 39695 39636
9 01 2 40012 39957
10 01 2 42073 39856
# … with 236,834 more rows, and 1 more variable:
# POPESTIMATE2016 <dbl>
State 列将成为我想要普遍分组的内容。我将在比赛列中有多行代表相同的值。 CENSUS2010POP 列是对该特定州的特定种族群体的人口普查人口估计值。
所以,我最终想要做的是为整个州的每个种族群体人口估计值获取一列。例如,在原始数据集中,state = 1 & race = 1 指的是 State 1 中白人成分的人口。我想要的是总结该州对白人人口估计的观察,并将该估计变成一列。然后对于数据集中的第三列,我将对非白人在该特定州的人口估计值进行总和,假设它相当于上面原始数据集中的 RACE = 2。下面是一个简单的例子:
STATE WHITE_CENSUS10POP NONWHITE_CENSUS10POP
1 = summation(nrow where state == 1 & race == 1) = summation(nrow where state == 1 & race == 2)
2. = summation(nrow where state == 2 & race == 1) = summation(nrow where state == 2 & race == 2)
3
4
5
6
...
50
【问题讨论】: