【问题标题】:Randomly Partition versus Partition then Shuffle随机分区与分区然后随机播放
【发布时间】:2014-12-30 15:07:50
【问题描述】:

给定一组从相同分布生成的 n 个数据点,我想将该组“随机划分”为 k 个组,其中每个组包含从原始数据集中随机选择的 n/k 个点。

或者,我可以先将输入数据集分成k个连续的块,其中第一个块包含1,...,n/k,第二个块包含n/k+1,...,2n/ k 等。然后我“洗牌”每个分区内的数据点。

如果数据集是从相同的分布生成的,这两种方法是否总是相等的?如果不是,当这两种方法产生相同的结果时,我们需要什么假设?

【问题讨论】:

  • 所以数据点是随机数(或其他数据)?如果他们是independent and identically distributed,那么你想要的一切都是真的(并且洗牌是不必要的)。如果不是,事情就会变得更加复杂。
  • @Teepeemm 我刚刚检查了“独立同分布”的定义,它似乎是我正在寻找的。感谢您的帮助。

标签: algorithm sorting math theory


【解决方案1】:

显然它们是不等价的;第二个限制可以进入每个分区的值,而第一个没有。

如果您所说的“结果”是指对这些分区完成,那将完全取决于实际情况,而您没有提供任何提示。

【讨论】:

  • 我想在数据的分区/组上训练一组分类器。所以我的问题是,如果我使用这些不同的分区技术训练两个分类器集合,它们在预测数据方面是否具有相同的能力?我们需要的一个可能假设是数据来自一个固定的数据生成过程,这样在第二种方法中,每个分区都可以代表整个数据集的人口统计数据。
  • 如果一种方法在生成的分区上比另一种方法更灵活,那么除非有假设阻止了这种灵活性的行使,否则我看不出这两种方法如何产生相同的结果。您自己的示例假设表明第二种方法可以表示第一种方法不能表示的信息,这大概可以在整个应用程序中使用。
猜你喜欢
  • 2016-04-15
  • 2012-12-09
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-01-08
  • 1970-01-01
  • 2023-01-23
  • 2020-12-27
相关资源
最近更新 更多