IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    7. 直接策略搜索及学习过程

    starrow发表于 2022-10-14 09:44:29
    love 0
    强化学习的另一类解法建立策略的参数模型,将最优化问题的目标函数变为以参数θ为自变量的复杂函数ρ(θ),然后发展出各种方法估算这些函数。例如,DeepMind公司开发的强化学习模型将Atari公司推出的一系列游戏的画面像素作为输入,用深度神经网络学习玩游戏的策略,在很多游戏中水平都超过了人类玩家。


沪ICP备19023445号-2号
友情链接