【发布时间】:2014-12-30 15:07:50
【问题描述】:
给定一组从相同分布生成的 n 个数据点,我想将该组“随机划分”为 k 个组,其中每个组包含从原始数据集中随机选择的 n/k 个点。
或者,我可以先将输入数据集分成k个连续的块,其中第一个块包含1,...,n/k,第二个块包含n/k+1,...,2n/ k 等。然后我“洗牌”每个分区内的数据点。
如果数据集是从相同的分布生成的,这两种方法是否总是相等的?如果不是,当这两种方法产生相同的结果时,我们需要什么假设?
【问题讨论】:
-
所以数据点是随机数(或其他数据)?如果他们是independent and identically distributed,那么你想要的一切都是真的(并且洗牌是不必要的)。如果不是,事情就会变得更加复杂。
-
@Teepeemm 我刚刚检查了“独立同分布”的定义,它似乎是我正在寻找的。感谢您的帮助。
标签: algorithm sorting math theory