核心突破:极简激活的超级大脑
- 142B总参数 | 14B动态激活(每token激活6个专家+2个共享专家)
- 性能对标:Qwen2.5-72B、DeepSeek-V3等顶级模型
- 训练成本仅1/4:11.2T token预训练耗用146万GPU小时(Qwen2.5-72B需612万小时)
- 推理经济性:单节点8张GPU(40/80GB)即可部署
MoE架构精要:
- 128路由专家 + 2共享专家(SwiGLU激活的细粒度FFN)
- FP32门控层:保障路由稳定性
- 无辅助损失负载均衡(借鉴DeepSeek-V2):动态偏置项调节专家利用率
- 序列级均衡损失:杜绝单序列内负载倾斜
三大技术支柱撑起SOTA表现
1. 数据工程:11.2T高质量token的炼金术
- 三阶段处理框架:
- 文档准备:URL过滤+文本提取(优化版trafilatura)
- 规则处理:
- 行级去重:消除页眉/页脚冗余(保留前5行+后5行的低频内容)
- 模糊去重:MinHash+LSH实现80%相似度过滤(97.42%召回率)
- 模型处理:
- 网页分类器:保留文本密集型页面
- 质量模型:1.5B评分网络筛选高信息密度文本
- 语义去重:BGE-M3嵌入+KMeans聚类(相似度>0.95剔除)
- 中英1:1平衡 + 知识类别再平衡:
200类分类器提升百科/科普权重,压缩小说/商品描述占比
2. 训练基础设施:通信与计算的极致优化
- 1F1B流水线调度:
- 创新性增加预热步骤,实现All-to-All通信与计算重叠
- 内存效率优于DeepSeek的DualPipe方案(牺牲约5%气泡率)
- 分组GEMM加速:
- Token分块对齐:统一WGMMA指令的Tile粒度
- 性能碾压:H800上比NVIDIA Transformer Engine快14%(前向)/6.7%(反向)
3. 训练策略:稳定性的科学
- 分段学习率:4k步预热→10T token稳定期(3e-4)→两阶段退火(3e-5→1e-5)
- 动态批大小:64M → 96M(6T token)→ 128M(8.3T token)
- 32K上下文扩展:
采用UK策略(UnTie the Knots)——打乱文档分块并训练模型重组,保留短上下文能力
性能实测:以小博大的典范
能力维度 | 关键指标 | dots.11m1表现 | 对标模型 |
---|
中文理解 | C-Eval (5-shot) | 92.8 | 超Qwen2.5-72B (89.3) |
数学推理 | AIME24 | 33.1 | 逼近DeepSeek-V3 (34.0) |
代码生成 | HumanEval (Pass@1) | 88.4 | 接近GPT-4o (92.1) |
长上下文 | RULER-32K | 87.7 | 落后Qwen2.5-72B(92.7) |
综合成本 | GPU小时/万亿token | 13万 | Qwen2.5-72B的38% |
现象级发现:
数学任务中零样本比少样本强4+分,暗示模型内在推理机制特殊(作者称留待未来研究)
开源革命:透明化训练进程
- 每1T token发布中间检查点:
首次提供LLM训练动态的完整观测窗口,助力社区研究学习轨迹
- 全流程开源:
数据处理代码/训练框架/模型权重(HuggingFace & GitHub)
技术启示录
- 数据质量 > 数据规模:
TxT360对比实验证明——优质网页数据使1.5B小模型性能提升15%+
- MoE负载均衡无需代价:
无辅助损失设计验证了“平衡性可不牺牲性能”
- 系统级创新才是硬道理:
分组GEMM优化带来实质训练加速,算法-硬件协同是关键
未来方向:
- 稀疏注意力(GQA/MLA)+ 更稀疏MoE层
- 人类学习效率模拟:从数据中提取最大化知识密度
结语
dots.llm1用工程严谨性证明:效率与性能可兼得。当业界追逐万亿参数时,它选择让每比特算力发挥极致价值——这或是AGI时代更可持续的路径。
附小红书dots.llm1技术报告英中对照版,仅供学习参考: