人民大学携手快手与清华共同发布通用对口型框架OmniSync

作者:互联网

2026-03-30

⼤语⾔模型脚本

OmniSync作为前沿的口型同步技术,通过创新算法实现视频人物口型与语音的精准匹配。该技术由国内顶尖学术机构联合研发,采用扩散变换器等先进方法,为影视、虚拟现实等领域提供全新解决方案。

OmniSync是什么

这项由中国人民大学、快手科技和清华大学共同研发的技术,采用扩散变换器框架实现视频口型同步。其创新之处在于无掩码训练范式,可直接编辑视频帧而不需要参考帧或显式掩码。该技术支持无限时长推理,同时保持面部动态的自然性和身份一致性。通过流匹配基础的渐进噪声初始化与动态时空分类器自由引导机制,有效解决了音频信号弱的问题,确保口型同步的精确度。值得一提的是,OmniSync还建立了专门的AIGC-LipSync基准测试体系,用于评估AI生成视频中的口型同步性能。

OmniSync的主要功能

  1. 无掩码训练:采用直接编辑视频帧的创新方法,摆脱了对参考帧或掩码的依赖,支持无限时长的推理过程。
  2. 身份保持:在精确修改嘴部区域的同时,确保头部姿态和身份特征的一致性。
  3. 增强音频条件:运用动态时空引导机制,有效解决音频信号弱带来的同步问题。
  4. 通用兼容性:不仅适用于普通视频,还能兼容风格化角色、非人类实体以及AI生成内容。
  5. 无限时长推理:保持面部动态的自然流畅和时间维度的一致性。
  6. 遮挡鲁棒性:即使在面部遮挡等复杂条件下,仍能保证高质量的口型同步效果。

OmniSync的技术原理

  1. 无掩码训练范式:基于扩散变换器技术实现直接跨帧编辑,无需使用显式掩码或参考帧。通过迭代去噪学习映射函数,结合时间步依赖采样策略,在不同去噪阶段使用特定数据集,确保学习过程的稳定性。
  2. 渐进噪声初始化:运用流匹配技术将控制噪声注入原始帧,仅执行最后的去噪步骤,既保持了空间一致性,又实现了嘴部区域的精确修改,有效解决了姿态不一致和身份漂移问题。
  3. 动态时空分类器自由引导:该技术提供对音频影响的精细控制,基于时空自适应引导原理,能够平衡音频条件强度。其中空间自适应引导采用高斯加权空间引导矩阵,将引导强度集中在嘴部区域;时间自适应引导则会随着去噪过程推进而逐渐降低强度,确保在早期和中期扩散阶段提供强引导,在后期细化阶段减少干扰。

OmniSync的项目地址

  1. 项目官网:https://ziqiaopeng.github.io/OmniSync/
  2. arXiv技术论文:https://arxiv.org/pdf/2505.21448

OmniSync的应用场景

  1. 影视配音:实现影视作品中角色口型与配音的完美匹配。
  2. 虚拟现实:为虚拟角色提供逼真的口型同步效果,显著提升沉浸感。
  3. AI内容生成:大幅提升AI生成视频中口型同步的自然程度。
  4. 视频会议:改善远程通信场景下的口型同步效果。
  5. 游戏开发:增强游戏角色的口型表现力,提升整体交互体验。

作为视频口型同步领域的创新技术,OmniSync通过多项技术突破解决了行业痛点,为影视制作、虚拟现实等应用场景提供了可靠的技术支持,展现出广阔的应用前景。

相关标签:

Diffusion