【发布时间】:2021-02-16 09:47:16
【问题描述】:
我想知道在拆分数据集后是否可以对训练和测试数据使用假设测试。
我的目标是检查两个数据样本组是否平衡、分布良好,因此将为要应用的 ML 模型提供一个良好的环境。
如果是这样,我希望 H0(零假设)被接受,即我希望测试数据是训练数据的“缩影”
或者
我希望 H1(替代假设)被接受,即为了检查我的 ML 环境的“基础”,我应该期望找到两个样本之间的差异?
假设我的数据点有超过 1000 个数据点,它们服从高斯分布并且是独立的,那么 Z 检验会是一个好的策略吗?
【问题讨论】:
标签: python scikit-learn hypothesis-test scipy.stats