【问题标题】:how to find a distribution of values in dataset and generate random values based on this distribution?如何在数据集中找到值的分布并根据该分布生成随机值?
【发布时间】:2024-01-05 13:52:02
【问题描述】:

我有一个包含 100 个案例的数据集。每个案例都有一个类 {I,II,III,IV,V} 和一个值 A 和 V,每个类在数据集中出现 20 次:

Class   A   V
5       2   3
1       3   5
3       2   3
2       3   5
3       2   3
1       2   4
1       2   4
1       4   4
2       3   3
2       3   4

我想根据这个集合再生成 100 个案例。我假设我应该正确吗

  1. 找到每个类的 A 分布和 V 分布?
  2. 计算每类 A 和 V 的联合分布
  3. 根据此联合分布获取随机数

如果是这样,任何指向 java 或 python 中的应用程序或库的指针都会受到赞赏!

【问题讨论】:

  • “查找”一个分布可能非常具有挑战性,尤其是在记录如此之少的情况下 - 您对生成此数据的过程有任何了解吗?关于类如何影响 A 和 V,以及 A 和 V 如何关联的想法?我想这将是一个很大的帮助。您也可以考虑从现有样本中重新采样(带替换)。更多上下文会有所帮助!
  • A 和 V 的分布几乎是正常的(虽然从直方图来看),所以我从中生成了随机值。

标签: statistics distribution


【解决方案1】:

当我想在数据集中查找值的分布时,我使用 R 中的包 rriskDistributions。这个包为用户提供了一个 GUI,允许在不了解 R 语法的情况下选择最合适的分布。

rriskDistributions PDF

【讨论】: