人民大学携手快手与清华共同发布通用对口型框架OmniSync-脚本在线

首页前沿速递服务器教程网页设计教程网络编辑教程

移动端

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

人民大学携手快手与清华共同发布通用对口型框架OmniSync

作者：互联网

2026-03-30

⼤语⾔模型脚本

OmniSync作为前沿的口型同步技术，通过创新算法实现视频人物口型与语音的精准匹配。该技术由国内顶尖学术机构联合研发，采用扩散变换器等先进方法，为影视、虚拟现实等领域提供全新解决方案。

OmniSync是什么

这项由中国人民大学、快手科技和清华大学共同研发的技术，采用扩散变换器框架实现视频口型同步。其创新之处在于无掩码训练范式，可直接编辑视频帧而不需要参考帧或显式掩码。该技术支持无限时长推理，同时保持面部动态的自然性和身份一致性。通过流匹配基础的渐进噪声初始化与动态时空分类器自由引导机制，有效解决了音频信号弱的问题，确保口型同步的精确度。值得一提的是，OmniSync还建立了专门的AIGC-LipSync基准测试体系，用于评估AI生成视频中的口型同步性能。

OmniSync的主要功能

无掩码训练：采用直接编辑视频帧的创新方法，摆脱了对参考帧或掩码的依赖，支持无限时长的推理过程。
身份保持：在精确修改嘴部区域的同时，确保头部姿态和身份特征的一致性。
增强音频条件：运用动态时空引导机制，有效解决音频信号弱带来的同步问题。
通用兼容性：不仅适用于普通视频，还能兼容风格化角色、非人类实体以及AI生成内容。
无限时长推理：保持面部动态的自然流畅和时间维度的一致性。
遮挡鲁棒性：即使在面部遮挡等复杂条件下，仍能保证高质量的口型同步效果。

OmniSync的技术原理

无掩码训练范式：基于扩散变换器技术实现直接跨帧编辑，无需使用显式掩码或参考帧。通过迭代去噪学习映射函数，结合时间步依赖采样策略，在不同去噪阶段使用特定数据集，确保学习过程的稳定性。
渐进噪声初始化：运用流匹配技术将控制噪声注入原始帧，仅执行最后的去噪步骤，既保持了空间一致性，又实现了嘴部区域的精确修改，有效解决了姿态不一致和身份漂移问题。
动态时空分类器自由引导：该技术提供对音频影响的精细控制，基于时空自适应引导原理，能够平衡音频条件强度。其中空间自适应引导采用高斯加权空间引导矩阵，将引导强度集中在嘴部区域；时间自适应引导则会随着去噪过程推进而逐渐降低强度，确保在早期和中期扩散阶段提供强引导，在后期细化阶段减少干扰。

OmniSync的项目地址

项目官网：https://ziqiaopeng.github.io/OmniSync/
arXiv技术论文：https://arxiv.org/pdf/2505.21448

OmniSync的应用场景

影视配音：实现影视作品中角色口型与配音的完美匹配。
虚拟现实：为虚拟角色提供逼真的口型同步效果，显著提升沉浸感。
AI内容生成：大幅提升AI生成视频中口型同步的自然程度。
视频会议：改善远程通信场景下的口型同步效果。
游戏开发：增强游戏角色的口型表现力，提升整体交互体验。

作为视频口型同步领域的创新技术，OmniSync通过多项技术突破解决了行业痛点，为影视制作、虚拟现实等应用场景提供了可靠的技术支持，展现出广阔的应用前景。

相关标签:

Diffusion

上一篇：Jaaz开源AI设计Agent本地免费替代Lovart 下一篇：DistriFusion-高分辨率扩散模型分布式并行推理框架

相关推荐

RAG 不一定非得靠向量库：一套更偏工程落地的“结构化推理检索”方案这两年只要聊 RAG，大家脑子里默认浮现出来的，基本都是同一套流程：切 chunk。做 embedding。进向量库。 top-k 检索。必要时 rerank。最后把上下文塞给 LLM。这

2026-03-30

立即查看

一文搞懂深度学习中的池化！在卷积神经网络（CNN）中，卷积层用于提取图像或特征图的局部模式，而池化（Pooling）是卷积之后常用的一种下采样操作。池化可以降低特征图尺寸、减少计算量，并增强模型对位置和噪声的鲁棒性。

2026-03-30

立即查看

告别 Vibe Coding：用 SDD 让 AI 编程提效 50%，三工具实战对比告别 Vibe Coding：用 SDD 让 AI 编程提效 50%，三工具实战对比目录 0. 背景与数据 1. 为什么需要 SDD 2. 轻量级实践：手搓 SDD 3. 工程化实践：OpenSpe

2026-03-30

立即查看

Agent 语音交互如何更稳、更快？一次高并发消息链路优化实践本文结合一个典型的高并发智能语音交互场景，介绍如何基于阿里云 RocketMQ LiteTopic 构建一套更稳定、更可靠、更高效的实时语音消息链路架构。

2026-03-30

立即查看

专题

#Grok

Grok脚本资源网站，提供G

+ 收藏

#Sora2

Sora2脚本资源网站，提供S

+ 收藏

#通义万相

通义万相脚本资源网站，提供通

+ 收藏

#海螺AI

海螺AI脚本资源网站，提供海

+ 收藏

#可灵AI

可灵AI脚本资源网站，提供可

+ 收藏

#Kling3.0

Kling3.0脚本资源网站，提

+ 收藏

最新数据

VASA-1微软发布静态照片生成对口型视频技术框架微软VASA-1技术框架可将静

StableAssistant由StabilityAI打造的智能聊天助手

国家网信办公布第六批深度合成服务算法备案名单含腾讯混元等492个算法

ExVideo-阿里联合华东师大发布AI视频时长延展调优技术

Dify开源生成式AI应用开发平台

MultiTalk音频驱动多人对话视频生成框架

LinGen-Meta与普林斯顿大学合作发布文本生成视频框架

通义千问发布多模态理解生成模型QwenVLo

Mercury由InceptionLabs研发的扩散语言模型

腾讯开源混元3D世界生成模型1.0版

相关文章

一文搞懂深度学习中的池化！

厦门大学DeepSeek大模型助力高校企业政府发展 PDF文件 AI教程资料

RAG 不一定非得靠向量库：一套更偏工程落地的“结构化推理检索”方案

北京大学DeepSeek与AIGC应用PDF AI教程资料

开源项目 superpowers 深度解读：把 AI Coding Agent 变成遵守工程流程的协作伙伴

金灵AI深度体验报告 CSDN推出金融投研AI智能助手

GSD 使用指南：高效交付功能的结构化工作流

AI生成艺术版权问题解析快速了解关键要点

# AI 终于能"干活"了——Function Calling 完全指南

清华大学AIGC发展研究报告3 0 PDF版 AI教程资料

AI精选

更多

RAG 不一定非得靠向量库：一

一文搞懂深度学习中的池化！

告别 Vibe Coding：用 SDD 让 AI 编程提效 50%，三工具实战对比

Agent 语音交互如何更稳、更快？一次高并发消息链路优化实践

# AI 终于能"干活"了——Function Calling 完全指南

GSD 使用指南：高效交付功能的结构化工作流

刚刚！Claude最强大模型泄露，Anthropic紧急封锁

开源项目 superpowers 深度解读：把 AI Coding Agent 变成遵守工程流程的协作伙伴

我想搭建一个AI编程平台：让每个人都能用提示词“召唤”出想要的项目

有了AI大家的日常是轻松了还是更焦虑了呢？

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区