智谱AI开源多主体视频生成框架Kaleido
作者:互联网
2026-03-25
Kaleido作为开源多主体视频生成框架,凭借创新的技术方案有效解决了主体一致性与背景解耦难题。下面将详细介绍其功能特点、技术原理及具体应用场景。
Kaleido的核心优势
-
多主体一致性生成:该框架能确保视频中多个主体(包括人物和物体)的视觉特征保持高度一致,即便在复杂场景或多人交互情况下也能维持稳定表现。
-
背景解耦技术:通过独特的信息分离机制,有效避免参考图像中无关背景细节的干扰,使主体能够适配不同背景环境。
-
高质量视频输出:基于优化后的数据构建和训练方法,可生成保真度极高的视频内容,适用于广告制作、影视创作等专业领域。
-
灵活的控制方式:支持通过多张参考图像结合文本提示进行创作,为使用者提供更丰富的表达空间。

Kaleido的技术实现
数据构建管线:采用创新的跨配对数据合成技术,结合背景修复方法,强制模型在训练过程中解耦主体特征。通过多阶段数据增强流程(包括主体定位、分割和质量过滤),确保训练数据的多样性与高质量。
R-RoPE编码机制:引入参考旋转位置编码技术,为参考图像Token建立独立的旋转位置编码。这种空间位移设计确保不同主体在时空嵌入空间中占据独特位置,显著提升多主体生成的时空一致性。
模型架构设计:基于扩散模型和Transformer框架,通过高效的条件注入策略将参考图像与视频生成过程有机结合。利用R-RoPE机制清晰区分图像和视频信息流。
Kaleido的资源获取
项目官网:https://criliasmiller.github.io/Kaleido_Project/
GitHub仓库:https://github.com/zai-org/Kaleido
模型资源库:https://huggingface.co/zai-org/Kaleido-14B-S2V
技术论文:https://arxiv.org/pdf/2510.18573
Kaleido的行业应用
-
影视动画制作:快速生成角色动画素材,大幅提升动画制作效率。
-
广告创意设计:灵活生成包含多产品或多人物互动的广告视频。
-
电商虚拟展示:为用户提供虚拟试穿体验,增强线上购物互动性。
-
虚拟角色开发:为虚拟主播或游戏角色生成更丰富的动态表现。
-
教学演示制作:直观展示实验过程或协作场景,提升教学效果。
通过上述介绍可以看出,Kaleido框架为多主体视频生成提供了创新解决方案,其技术突破将推动视频创作领域的进一步发展。
相关标签:
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
OpenClaw 真正的效率开关,不是 Prompt,而是多会话和子代理
10款免费AI语音输入工具与软件 轻松实现语音转文字
MCP 协议深度解析:构建 AI Agent 的「万能接口」标准
WorkAny Bot 云端AI Agent工具采用OpenClaw框架构建
Anthropic 的 Harness 启示:当 AI Agent 开始「长跑」,架构才是真正的天花板
SkyBot由Skywork研发的云电脑AI助手
AI Agent 智能体 - Multi-Agent 架构入门
Nano Banana 2 国内使用指南 LiblibAI 无需翻墙教程
一文搞懂卷积神经网络经典架构-LeNet
一文搞懂深度学习中的池化!
AI精选
