IT博客汇
首页
精华
技术
设计
资讯
扯淡
权利声明
登录
注册
7. 直接策略搜索及学习过程
starrow
发表于
2022-10-14 09:44:29
love
0
强化学习的另一类解法建立策略的参数模型,将最优化问题的目标函数变为以参数θ为自变量的复杂函数ρ(θ),然后发展出各种方法估算这些函数。例如,DeepMind公司开发的强化学习模型将Atari公司推出的一系列游戏的画面像素作为输入,用深度神经网络学习玩游戏的策略,在很多游戏中水平都超过了人类玩家。