人工智能学习笔记9

 

人工智能学习笔记9

 

人工智能学习笔记9

人工智能学习笔记9

 

人工智能学习笔记9

 

人工智能学习笔记9

人工智能学习笔记9

 

人工智能学习笔记9

人工智能学习笔记9

 

人工智能学习笔记9

 

人工智能学习笔记9

人工智能学习笔记9

 

Agent:智能体

 

策略网络(Policy Network):

直接预测在某个环境状态下应该采取的Action    适合Action种类非常多或者有连续取值的Action的环境。(学习的不是某个action对应的期望价值Q,而是直接学习在当前环境应该采取的策略,可以直接产生最终的策略)

人工智能学习笔记9

价值/估值网络(Value Network):

预测某个环境状态下所有Action的期望价值(Q值),之后可以通过选择Q值最高的Action执行策略。     适合仅有少量离散取值的Action的环境。

人工智能学习笔记9

人工智能学习笔记9

 

相关文章:

  • 2021-04-19
  • 2021-09-28
  • 2021-11-11
  • 2021-06-17
  • 2021-04-09
  • 2022-02-06
  • 2021-05-03
猜你喜欢
  • 2021-11-17
  • 2021-07-22
  • 2021-09-08
  • 2021-08-08
  • 2021-12-31
  • 2021-09-27
  • 2021-09-09
相关资源
相似解决方案