IT博客汇 | 6. 值函数估计

6. 值函数估计

starrow发表于 2022-10-13 10:01:17

值函数估计的方法继承了马尔科夫决策过程解法的基本思路。为了方便讨论和处理，定义动作-值函数（Action-value function），或称为Q函数[ ]，为累计折扣奖励关于环境的初始状态s、主体在该状态所选动作a和随后所用策略π三者的条件期望值