智谱AI开源多主体视频生成框架Kaleido

作者:互联网

2026-03-25

⼤语⾔模型脚本

Kaleido作为开源多主体视频生成框架,凭借创新的技术方案有效解决了主体一致性与背景解耦难题。下面将详细介绍其功能特点、技术原理及具体应用场景。

Kaleido的核心优势

  1. 多主体一致性生成:该框架能确保视频中多个主体(包括人物和物体)的视觉特征保持高度一致,即便在复杂场景或多人交互情况下也能维持稳定表现。

  2. 背景解耦技术:通过独特的信息分离机制,有效避免参考图像中无关背景细节的干扰,使主体能够适配不同背景环境。

  3. 高质量视频输出:基于优化后的数据构建和训练方法,可生成保真度极高的视频内容,适用于广告制作、影视创作等专业领域。

  4. 灵活的控制方式:支持通过多张参考图像结合文本提示进行创作,为使用者提供更丰富的表达空间。

Kaleido的技术实现

  1. 数据构建管线:采用创新的跨配对数据合成技术,结合背景修复方法,强制模型在训练过程中解耦主体特征。通过多阶段数据增强流程(包括主体定位、分割和质量过滤),确保训练数据的多样性与高质量。

  2. R-RoPE编码机制:引入参考旋转位置编码技术,为参考图像Token建立独立的旋转位置编码。这种空间位移设计确保不同主体在时空嵌入空间中占据独特位置,显著提升多主体生成的时空一致性。

  3. 模型架构设计:基于扩散模型和Transformer框架,通过高效的条件注入策略将参考图像与视频生成过程有机结合。利用R-RoPE机制清晰区分图像和视频信息流。

Kaleido的资源获取

  1. 项目官网:https://criliasmiller.github.io/Kaleido_Project/

  2. GitHub仓库:https://github.com/zai-org/Kaleido

  3. 模型资源库:https://huggingface.co/zai-org/Kaleido-14B-S2V

  4. 技术论文:https://arxiv.org/pdf/2510.18573

Kaleido的行业应用

  1. 影视动画制作:快速生成角色动画素材,大幅提升动画制作效率。

  2. 广告创意设计:灵活生成包含多产品或多人物互动的广告视频。

  3. 电商虚拟展示:为用户提供虚拟试穿体验,增强线上购物互动性。

  4. 虚拟角色开发:为虚拟主播或游戏角色生成更丰富的动态表现。

  5. 教学演示制作:直观展示实验过程或协作场景,提升教学效果。

通过上述介绍可以看出,Kaleido框架为多主体视频生成提供了创新解决方案,其技术突破将推动视频创作领域的进一步发展。

相关标签:

Diffusion