【发布时间】:2021-09-17 18:55:18
【问题描述】:
嗨,有一些看起来像这样的数据:
ID Item Class Value Date
1 Eggs A 5 07/07/21
2 Eggs A 4.5 07/07/21
3 Cereal C 2 07/07/21
4 Eggs B 3.5 07/07/21
5 Bread B 2.5 07/07/21
6 Juice A 3 07/07/21
7 Juice C 1.5 07/07/21
8 Eggs C 2 07/07/21
9 Bread A 3 07/07/21
10 Juice A 3 07/07/21
这只是一个示例,实际数据大约有 8k 行(并且有 300 多个数据帧)。我想创建一个新的 df
- 计算
Item列中观察值的百分比(例如列中有10个项目,其中Eggs有4个,因此Eggs的百分比为40) - 计算每个
Item组的平均Value
理想情况下,最终数据应如下所示:
Item Percentage Average_Value Date
Eggs 40 3.75 07/07/21
Cereal 10 2 07/07/21
Bread 20 2.75 07/07/21
Juice 30 2.5 07/07/21
有几点需要注意 - 我想对 300 多个不同的 csv(我的数据存储在其中)执行此操作,并使用这些新信息创建一个 df。每个 csv 引用不同的日期,因此最终的 df 看起来像上面的样子,只有另外四行,但具有不同的值和不同的日期。我知道我需要为此使用 for 循环,也许我应该稍后弄清楚那部分,但我认为现在值得一提。最后,在某个时候,我可能还想计算Class 的平均值。我会更好地为此制作一个单独的 df,因为我看不出我还能如何做到这一点?
【问题讨论】:
标签: r count percentage