IT博客汇 | 解读ChatGPT中的RLHF

解读ChatGPT中的RLHF

wireless_com发表于 2023-05-07 20:23:14

无论是 ChatGPT 还是 GPT-4，它们的核心技术机制之一都是基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）。这是大型语言模型生成领域的新训练范式，即以强化学习方式依据人类反馈优化语言模型。那么，什么是 RLHF 呢？RLHF 背后的基本思想是采用预先训练好的语言模型，并让人们对其输出的结果进行排序。这个输出的排名作为...