IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    解密小米MiMo-VL:7B小模型如何实现多模态SOTA性能

    52nlp发表于 2025-05-30 07:13:14
    love 0

    近日,小米开源社区发布了MiMo-VL-7B视觉语言模型技术报告,其SFT(监督微调)和RL(强化学习)版本在40多项多模态任务评测中表现惊艳,尤其在复杂推理和GUI交互领域刷新了开源模型记录。本文将深入解析其核心技术方案。


    一、核心架构设计

    MiMo-VL采用经典的三模块架构:

    1. 视觉编码器:基于Qwen2.5-ViT,支持原生分辨率输入保留细节
    2. 跨模态投影层:MLP结构实现视觉-语言特征对齐
    3. 语言模型:小米自研MiMo-7B基础模型,专为复杂推理优化


    图:模型架构示意图(来源:技术报告Figure 2)


    二、四阶段预训练策略(2.4万亿Token)

    阶段目标关键数据序列长度
    1投影层预热图文对8K
    2视觉-语言对齐图文交错数据8K
    3多模态预训练OCR/视频/GUI/推理数据8K
    4长上下文SFT高分辨率图像/长文档/长推理链32K

    核心突破:在阶段4注入合成推理数据(含长思维链),使模型在MMMU任务响应长度从680 token跃升至2.5K token,推理深度显著提升。


    三、混合强化学习(MORL)

    创新性地融合两类奖励信号:

    1. 可验证奖励(RIVR):
      • 数学推理:基于Math-Verify库自动验证
      • 目标定位:GIoU计算边界框精度
      • 视频时序定位:IoU评估时间片段
    2. 人类偏好奖励(RLHF):
      • 构建双语偏好数据集
      • 分离训练文本/多模态奖励模型
      • 采用Bradley-Terry目标函数

    技术优势:通过完全同策略GRPO算法避免传统RL性能饱和问题(见图7对比),实现稳定优化。


    四、性能突破

    1. 基础视觉理解:
      • MMMU-val:66.7%(超越Gemma 3 27B)
      • CharXiv-RQ:56.5%(领先Qwen2.5-VL 14%)
    2. 复杂推理:
      • OlympiadBench:59.4%(超越72B模型)
      • MathVision:60.4%(较SFT提升2.5%)
    3. GUI交互:
      • OSWorld-G:56.1%(超越专用模型UI-TARS)
      • 统一动作空间支持跨平台操作(详见表5)
    4. 用户体验:
      • 开源模型中最高Elo评分
      • 接近Claude 3.7 Sonnet水平

    图:GUI任务性能对比(来源:技术报告Figure 4)


    五、关键洞见

    1. 推理数据前置:预训练后期引入长链合成数据,比微调效果提升显著
    2. 多任务RL冲突:感知任务需简短输出,推理任务需长链思考,优化目标存在张力
    3. 奖励工程挑战:不同任务奖励量纲差异需归一化处理(RaaS服务实现)

    六、开源生态

    1. 模型权重:完整开放SFT/RL版本
    2. 评测框架:覆盖50+任务的LMMs-Eval增强版
    3. 数据集:包含GUI动作空间定义等工业级数据

    项目地址:https://github.com/XiaomiMiMo/MiMo-VL


    结语

    MiMo-VL-7B通过三阶段创新—— 精细数据配比预训练、混合奖励强化学习、工业场景专项优化,证明了小模型在复杂多模态任务上的巨大潜力。其在STEM问题求解(见图13)、GUI自动化(见图9)、长文档解析等场景的表现,为开源社区提供了新的技术标杆。

    附小米MiMo-VL技术报告英中对照版,仅供学习参考:

    小米MiMo-VL技术报告英中对照版


沪ICP备19023445号-2号
友情链接