IT博客汇
首页
精华
技术
设计
资讯
扯淡
权利声明
登录
注册
解读ChatGPT中的RLHF
wireless_com
发表于
2023-05-07 20:23:14
love
0
无论是 ChatGPT 还是 GPT-4,它们的核心技术机制之一都是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)。这是大型语言模型生成领域的新训练范式,即以强化学习方式依据人类反馈优化语言模型。那么,什么是 RLHF 呢?RLHF 背后的基本思想是采用预先训练好的语言模型,并让人们对其输出的结果进行排序。这个输出的排名作为...