VASA-1微软发布静态照片生成对口型视频技术框架

作者:互联网

2026-03-22

⼤语⾔模型脚本

微软亚洲研究院推出的VASA-1框架,实现了从静态照片到动态视频的突破性转变。这项技术通过单张人脸照片和语音音频,即可生成高度逼真的3D说话面部动画。

VASA-1的功能特性

  1. 精准的唇音同步效果:系统能够根据语音内容精确控制唇部动作,确保口型与发音完美匹配。
  2. 多样化的表情呈现:除了基础唇部动作外,还能展现各种复杂表情,包括细微的情感变化。
  3. 拟真头部动作模拟:自动生成自然的头部转动和倾斜动作,大幅提升动画的真实感。
  4. 高效的视频输出能力:支持实时生成512×512分辨率、40帧/秒的高清视频,延迟极低。
  5. 灵活的参数控制:可通过调整视线方向、头部距离等参数,实现个性化的动画效果。
  6. 广泛的输入兼容性:不仅支持常规照片,还能处理艺术肖像、歌唱音频等特殊输入。

VASA-1的技术实现

  1. 输入数据准备:系统需要一张静态面部图像和一段语音音频作为基础素材。
  2. 特征提取过程:通过面部编码器获取3D外观体积、身份特征等关键信息。
  3. 潜在空间构建:建立能区分面部动态与其他因素的专业建模空间。
  4. 模型训练方法:采用基于扩散的变换器模型进行专业训练。
  5. 控制信号处理:将视线方向等参数作为生成条件输入模型。
  6. 动态生成阶段:根据音频特征生成面部动作和头部运动的代码序列。
  7. 最终视频合成:利用面部解码器将生成的动态代码转换为视频帧。

相关资源链接

  1. 项目主页:https://www.microsoft.com/en-us/research/project/vasa-1/
  2. 技术论文:https://arxiv.org/abs/2404.10667

VASA-1通过创新的面部动态生成技术,为数字内容创作开辟了新的可能性,其逼真的效果和高效的处理能力展现了人工智能在视觉生成领域的突破。

相关标签:

Diffusion