IT博客汇
首页
精华
技术
设计
资讯
扯淡
权利声明
登录
注册
6. 值函数估计
starrow
发表于
2022-10-13 10:01:17
love
0
值函数估计的方法继承了马尔科夫决策过程解法的基本思路。为了方便讨论和处理,定义动作-值函数(Action-value function),或称为Q函数[ ],为累计折扣奖励关于环境的初始状态s、主体在该状态所选动作a和随后所用策略π三者的条件期望值