DeepSeek-V3/R1 凭借 61 层神经网络、58 层 MoE 架构及 14906 个专家,在高效推理与经济性上实现突破。其 MLA 机制有效压缩键值缓存,降低内存占用,多 Token 预测等技术更是大幅提升数据效率与训练速度,正推动大模型向更高效、智能的未来迈进。61层神经网络,58层MoE,共用14,90个专家;DeepSeek-V3是一款采用混合专家(Mixture-of-Experts, MoE)架构的大型语言模型,其设计中每层包含有1个共享专家和256个路由专家。这意味着每一层总共有257个专家(1 + 256)。模型总计有61层,其中前3层为密集层(Dense Layer),而后58层则采用了MoE架构。为了计算整个模型中的专家总数,我们可以将每层的专家数量乘以MoE层数。具体来说,模型的MoE部分包含58层,每层有257个专家,因此总的专家数量为:[ text{总专家数} = 257 times 58 = 14,906 ]这表明DeepSeek-V3在整个模型中部署了14,906个专家。这样的设计允许模型在保持高效推理的同时,通过激活少量专家来处理每个token,从而实现经济高效的训练和推理过程。此外,值得注意的是,在MoE层中,每个token会选择激活8个专家,并确保这些token最多被路由到4个节点上进行处理。这种稀疏激活机制不仅有助于控制计算资源的使用,
...
继续阅读
(4)