IT博客汇
首页
精华
技术
设计
资讯
扯淡
权利声明
登录
注册
开源 | MeiGen-MultiTalk:基于单张照片实现多人互动演绎
美团技术团队
发表于
2025-06-26 00:00:00
love
0
近日,美团推出了音频驱动的多人对话视频生成框架MultiTalk,并在GitHub上开源,首创L-RoPE绑定技术,通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性地采用局部参数训练+多任务学习策略,在保留复杂动作指令跟随能力的同时,实现自适应动态人物定位。只需输入多人音频流、参考图像和文本提示,即可生成口型精准同步、肢体自然的交互视频,可支持影视制作、直播电商等场景的工具升级。