如何在数据集中找到值的分布并根据该分布生成随机值？答案

【问题标题】：how to find a distribution of values in dataset and generate random values based on this distribution?如何在数据集中找到值的分布并根据该分布生成随机值？
【发布时间】：2024-01-05 13:52:02
【问题描述】：

我有一个包含 100 个案例的数据集。每个案例都有一个类 {I,II,III,IV,V} 和一个值 A 和 V，每个类在数据集中出现 20 次：

Class   A   V
5       2   3
1       3   5
3       2   3
2       3   5
3       2   3
1       2   4
1       2   4
1       4   4
2       3   3
2       3   4

我想根据这个集合再生成 100 个案例。我假设我应该正确吗

找到每个类的 A 分布和 V 分布？
计算每类 A 和 V 的联合分布
根据此联合分布获取随机数

如果是这样，任何指向 java 或 python 中的应用程序或库的指针都会受到赞赏！

【问题讨论】：

“查找”一个分布可能非常具有挑战性，尤其是在记录如此之少的情况下 - 您对生成此数据的过程有任何了解吗？关于类如何影响 A 和 V，以及 A 和 V 如何关联的想法？我想这将是一个很大的帮助。您也可以考虑从现有样本中重新采样（带替换）。更多上下文会有所帮助！
A 和 V 的分布几乎是正常的（虽然从直方图来看），所以我从中生成了随机值。

标签： statistics distribution

【解决方案1】：

当我想在数据集中查找值的分布时，我使用 R 中的包 rriskDistributions。这个包为用户提供了一个 GUI，允许在不了解 R 语法的情况下选择最合适的分布。

rriskDistributions PDF

【讨论】：