A Hitchhiker's Guide to Statistical Comparisons of Reinforcement Learning Algorithms
发表时间:2019(ICLR Worskhop on Reproducibility)
文章要点:文章主要是用统计检验的思想来比较RL算法的performance。文章介绍了很多统计检验的方法,参数的,非参数的都有,比如T-test, Welch's t-test, Wilcoxon Mann-Whitney rank sum test, Ranked t-test, Bootstrap confidence interval test, Permutation test。然后实验部分做了正态分布和非正态分布,两个算法比较了同分布同标准差,同分布不同标准差,不同分布同标准差,不同分布不同标准差,以及统计效力。最后用SAC和TD3做了具体实验。
总结:统计检验肯定是有用的,但是一个样本就要train一次的话,计算代价还是太高了。像文章里写的,两个算法都跑了192次,我的天,这个想想就夸张。
疑问:要复习一下非参统计了。

相关文章:

  • 2022-02-04
  • 2021-06-11
  • 2021-11-24
  • 2021-05-30
  • 2022-01-19
  • 2022-02-15
  • 2021-10-18
  • 2021-04-02
猜你喜欢
  • 2021-11-18
  • 2021-08-08
  • 2022-02-15
  • 2022-12-23
  • 2021-06-19
  • 2021-11-18
  • 2021-06-14
相关资源
相似解决方案