MOVA创智学院携手模思智能开源端到端音视频模型
作者:互联网
2026-03-23
作为国内首个开源音视频生成模型,MOVA通过创新的双塔架构实现跨模态同步输出,为视听创作带来全新可能。
MOVA的主要功能
- 端到端音视频生成:同步输出8秒720p视频及配套音频,解决传统视频无声音问题。
- 双模式驱动生成:支持图像结合文本或纯文本两种输入方式,满足多样化创作需求。
- 电影级口型同步:精准匹配中英文对话场景下的人物嘴型与语音节奏。
- 智能环境音效:自动生成与画面内容高度契合的背景音乐和动作音效。
- 视频文字渲染:在指定位置生成清晰可读的动态文字,增强信息传达效果。
- 高分辨率输出:支持最高720p分辨率的视听内容生成,确保画面质量。

MOVA的技术原理
- 异构双塔架构:14B视频扩散模型与1.3B音频扩散模型协同工作,通过双向桥接实现音画深度交互。
- 跨模态时间对齐:采用Aligned ROPE机制统一音视频时间坐标系,彻底消除同步误差。
- 渐进式训练策略:从360p到720p分阶段优化,逐步提升模型对齐能力和画面质量。
- 双重CFG推理:独立调节文本指令和模态桥接权重,平衡画面质量与口型精度。
MOVA的项目地址
- 项目官网:https://mosi.cn/models/mova
- GitHub仓库:https://github.com/OpenMOSS/MOVA
- HuggingFace模型库:https://huggingface.co/collections/OpenMOSS-Team/mova
MOVA的应用场景
- 影视制作:加速分镜预览与配音制作流程,显著降低前期制作成本。
- 短视频创作:提供高质量带音效的剧情素材,提升内容生产效率。
- 游戏开发:自动生成过场动画与对话内容,打造沉浸式游戏体验。
- 教育培训:制作多语言教学视频,实现精准口型同步的教学效果。
- 电商营销:快速产出产品解说视频,优化营销内容迭代效率。
MOVA通过技术创新突破视听创作边界,为多个行业提供高效的音视频生成解决方案。
相关标签:
办公自动化脚本
相关推荐
