IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    解读ChatGPT中的RLHF

    wireless_com发表于 2023-05-07 20:23:14
    love 0
    无论是 ChatGPT 还是 GPT-4,它们的核心技术机制之一都是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)。这是大型语言模型生成领域的新训练范式,即以强化学习方式依据人类反馈优化语言模型。那么,什么是 RLHF 呢?RLHF 背后的基本思想是采用预先训练好的语言模型,并让人们对其输出的结果进行排序。这个输出的排名作为...


沪ICP备19023445号-2号
友情链接