IT博客汇
首页
精华
技术
设计
资讯
扯淡
权利声明
登录
注册
解读DeepSeek-R1
wireless_com
发表于
2025-02-23 20:26:01
love
0
DeepSeek-R1 并不是从零开始训练的。它从一个比较强大LLM (DeepSeek-V3-base)开始,进而成为一个推理大模型。为了做到这一点,使用了强化学习(RL),当 LLM 做了一些有益于推理的事情时,进行奖励,否则进行惩罚。但这不仅仅是一次简单的训练,而是一系列阶段,称之为流水线。首先尝试纯 RL,看看推理是否会是否可行,这是 DeepSeek-R1-Zero,有点像一个实验。然后...