IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    6. 值函数估计

    starrow发表于 2022-10-13 10:01:17
    love 0
    值函数估计的方法继承了马尔科夫决策过程解法的基本思路。为了方便讨论和处理,定义动作-值函数(Action-value function),或称为Q函数[ ],为累计折扣奖励关于环境的初始状态s、主体在该状态所选动作a和随后所用策略π三者的条件期望值


沪ICP备19023445号-2号
友情链接