IT博客汇 | 7. 直接策略搜索及学习过程

7. 直接策略搜索及学习过程

starrow发表于 2022-10-14 09:44:29

强化学习的另一类解法建立策略的参数模型，将最优化问题的目标函数变为以参数θ为自变量的复杂函数ρ(θ)，然后发展出各种方法估算这些函数。例如，DeepMind公司开发的强化学习模型将Atari公司推出的一系列游戏的画面像素作为输入，用深度神经网络学习玩游戏的策略，在很多游戏中水平都超过了人类玩家。