IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    解读DeepSeek-R1

    wireless_com发表于 2025-02-23 20:26:01
    love 0
    DeepSeek-R1 并不是从零开始训练的。它从一个比较强大LLM (DeepSeek-V3-base)开始,进而成为一个推理大模型。为了做到这一点,使用了强化学习(RL),当 LLM 做了一些有益于推理的事情时,进行奖励,否则进行惩罚。但这不仅仅是一次简单的训练,而是一系列阶段,称之为流水线。首先尝试纯 RL,看看推理是否会是否可行,这是 DeepSeek-R1-Zero,有点像一个实验。然后...


沪ICP备19023445号-2号
友情链接