【发布时间】:2014-11-12 11:25:29
【问题描述】:
这可能很简单,但由于我没有进入它,我在这里发帖希望能得到一些帮助。
我想为分类变量的数据集按组计算比例的比例和标准误差。所以我有 2 个变量 v1 是从 1 到 4,v2 是从 1 到 9。我想按组计算 1 的比例(也适用于 2,3...9(在 v2 中)) v1.
由于使用table(v1, v2),手工操作很容易,但我不想手工操作:)
用更简单的方式说:我想找到 % 但我们可以使用均值,因为它是数字变量。我们有 1000 人,v1 的第 1 类有 300 人,v1 的第 2 类有 200 人等。v2 也是如此,第 1 类有 400 人等等。如果我按 v2 组计算类别 1 (v1) 的百分比,那么将是 300/400、200/400 等等。
数据框示例
id v1 v2
1 1 1
2 1 1
3 2 1
4 2 1
5 3 2
6 3 2
7 4 2
期望的输出:分组v2: group 1 (v2=1) 2/4; 2/4; 2/4; 1/4. v2: group 2 (v2=2) 2/3; 2/3; 2/3; 1/3
希望它有意义!
【问题讨论】:
-
我想找到 % 但我们可以使用均值,因为它是数字变量。我们有 1000 人,300 人属于 v1 的第 1 类,200 人属于 v2 的第 2 类,等等。v2 也是如此,第 1 类有 400 人,依此类推。如果我按 v2 组计算类别 1(v1) 的百分比,那么将是 300/400、200/400 等等。
-
@KFB 添加了一个数据框样本
-
为什么 v2==1 有 4 个值(2/4;2/4;2/4;1/4),而 v1 中只有 1 和 2(各两个)?
-
不明白。如何获得 2/4、1/4 ? 2/3, 1/3 ?
-
2/4 因为在 v1 中有两个人 1 ......其他人的逻辑相同。例如,按年龄组有多少人吸烟。所以 v1 吸烟组和 v2 是年龄组。如果 v1=1 表示他们每天抽 10 支香烟,如果是 2,则表示每天抽 20 支香烟等等......
标签: r