【发布时间】:2024-01-05 13:52:02
【问题描述】:
我有一个包含 100 个案例的数据集。每个案例都有一个类 {I,II,III,IV,V} 和一个值 A 和 V,每个类在数据集中出现 20 次:
Class A V
5 2 3
1 3 5
3 2 3
2 3 5
3 2 3
1 2 4
1 2 4
1 4 4
2 3 3
2 3 4
我想根据这个集合再生成 100 个案例。我假设我应该正确吗
- 找到每个类的 A 分布和 V 分布?
- 计算每类 A 和 V 的联合分布
- 根据此联合分布获取随机数
如果是这样,任何指向 java 或 python 中的应用程序或库的指针都会受到赞赏!
【问题讨论】:
-
“查找”一个分布可能非常具有挑战性,尤其是在记录如此之少的情况下 - 您对生成此数据的过程有任何了解吗?关于类如何影响 A 和 V,以及 A 和 V 如何关联的想法?我想这将是一个很大的帮助。您也可以考虑从现有样本中重新采样(带替换)。更多上下文会有所帮助!
-
A 和 V 的分布几乎是正常的(虽然从直方图来看),所以我从中生成了随机值。