【发布时间】:2017-10-04 17:40:01
【问题描述】:
所以我有以下数据集(这是一个小样本/示例,原始数据是 70 年的 7k 行和 30 列):
Year,Location,Population Total, Median Age, Household Total
2000, Adak, 220, 45, 67
2000, Akiachak, 567, NA, 98
2000, Rainfall, 2, NA, 11
1990, Adak, NA, 33, 56
1990, Akiachak, 456, NA, 446
1990, Tioga, 446, NA, NA
我想创建一个汇总表,以指示每个变量按位置提供的数据年限。所以这样的事情会起作用(对于之前的小例子):
Location,Population Total, Median Age, Household Total
Adak,1,2,2
Akiachak,2,0,2
Rainfall,1,0,1
Tioga,1,0,0
我是 R 新手,没有同时使用这两个命令,所以我不确定语法。任何帮助都会很棒或替代品。
【问题讨论】:
-
您需要使用
dplyr包。从group_by(Location)开始,然后编写您的summarise或count语句。不过,我建议查看有关使用dplyr的教程。 -
此外,如果您提供您尝试过的方法的示例,您将在此处收到关于问题的更好反馈。照原样,有些人可能会将其解释为作业问题...
-
谢谢!我正在考虑将所有不是 NA 的东西切换为 1,将 Na 切换为 0,然后在带走年份的同时聚合行。但是我的老板说我应该尝试同时使用这两个功能。
-
您是在专门谈论
dplyr中的group_by和summarize吗?如果是这样,您可能希望将dplyr添加为标签
标签: r dataframe group-by dplyr summary