A Hitchhiker's Guide to Statistical Comparisons of Reinforcement Learning Algorithms

A Hitchhiker's Guide to Statistical Comparisons of Reinforcement Learning Algorithms
发表时间：2019（ICLR Worskhop on Reproducibility）
文章要点：文章主要是用统计检验的思想来比较RL算法的performance。文章介绍了很多统计检验的方法，参数的，非参数的都有，比如T-test, Welch's t-test, Wilcoxon Mann-Whitney rank sum test, Ranked t-test, Bootstrap confidence interval test, Permutation test。然后实验部分做了正态分布和非正态分布，两个算法比较了同分布同标准差，同分布不同标准差，不同分布同标准差，不同分布不同标准差，以及统计效力。最后用SAC和TD3做了具体实验。
总结：统计检验肯定是有用的，但是一个样本就要train一次的话，计算代价还是太高了。像文章里写的，两个算法都跑了192次，我的天，这个想想就夸张。
疑问：要复习一下非参统计了。