Q学习动作探索策略中的ep-greepy,以ep的概率进行随机探索,以1-ep的概率以最大值策略进行开发,因为设定的迭代次数比较多,所以肯定存在一定的次数去搜索不同的动作。

1)Python版本

b站上的学习教程https://blog.csdn.net/qq_36124802/article/details/79882269,其中的pandas,np是数据处理包。使用其他语言也是可以的,用矩阵代替,主要是用多维矩阵保存数据,然后对矩阵进行计算处理。

2)c语言版本

https://blog.csdn.net/qq_23144435/article/details/80368635

 

3)C++版本

https://github.com/jinfagang/Q-Learning/blob/master/main.cpp

4)一个完整的unity demo项目,使用c# 语言

https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assets

 

相关文章:

  • 2021-06-13
  • 2021-06-25
  • 2021-06-04
  • 2022-12-23
  • 2022-01-13
  • 2021-09-04
  • 2021-07-03
猜你喜欢
  • 2022-12-23
  • 2021-11-27
  • 2021-06-14
  • 2021-12-01
  • 2021-05-03
  • 2021-10-02
  • 2021-08-02
相关资源
相似解决方案