【问题标题】:Data sampling technique and questions数据采样技术和问题
【发布时间】:2018-08-10 00:34:26
【问题描述】:

我对数据采样有点困惑,我的采样数据应该是什么分布?一般来说,我是否希望我的采样数据与我的整个数据集具有相同的分布?我想知道什么是合理的采样技术和方法?

【问题讨论】:

  • 这是一个非常广泛的问题。您能否详细说明您的问题?也许告诉我们您尝试了什么以及为什么它没有按您的预期工作。否则它可能会因为“过于宽泛”而被关闭。
  • 我投票结束这个问题,因为它与编程无关。

标签: machine-learning distribution sample sampling


【解决方案1】:

在选择采样技术时需要考虑许多因素。在选择抽样技术时,诸如工作目的或目标、预算、时间甚至样本量等因素都值得考虑。

概率抽样技术通常涉及更多,而非概率抽样技术可能要求不高。

所选择的抽样技术对数据的解释以及您工作的整体结果有很大的影响。 这些笔记可能很有趣:

Simple Random Sampling and Other Sampling Methods

【讨论】:

  • 这太宽泛了,无法在这里回答。这不是一个编程问题。最好不要回答这种主观的、开放式的问题(加上这更多的是一种观点和一般想法,而不是一个客观的答案)。
【解决方案2】:

我没有很好地理解你的问题,但我会尽力回答。 Student 't' 分布本质上是一个正态分布(近似钟形),这就是为什么统计程序中经常包含 Student 't' 分布而不是正态分布的统计表达式的原因。

【讨论】:

  • 记住这个答案是一个例子。
  • 嗨@Ricardo-Jose,感谢您对堆栈溢出的贡献,但是这个问题不适合这个论坛(它与编程无关;它属于stats.stackexchange.com)所以它会很可能会被关闭,您的努力将不会受到赞赏。请继续回答本网站上的问题,但请确保它们是适当的,最好是'good' questions
猜你喜欢
  • 1970-01-01
  • 2015-02-08
  • 1970-01-01
  • 2019-12-13
  • 1970-01-01
  • 2021-09-21
  • 2020-02-15
  • 1970-01-01
  • 2023-01-29
相关资源
最近更新 更多