SketchVideo-快手携手多所高校研发草图视频生成编辑框架
作者:互联网
2026-03-24
SketchVideo作为前沿的视频生成与编辑框架,通过草图与文本的智能结合,实现了对视频内容的精准控制,为创意表达开辟了新途径。
SketchVideo是什么
由中国科学院大学、香港科技大学和快手可灵团队联合研发的SketchVideo,是一款创新的基于草图的视频生成与编辑系统。该系统允许用户在关键帧绘制草图,配合文本提示,就能精确控制视频的空间布局和动态效果。其核心技术建立在DiT视频生成模型基础上,通过专门设计的草图控制网络和帧间注意力机制,实现了草图条件向所有视频帧的高效传播。该框架不仅能处理真实视频素材,还支持合成视频的精细化编辑,借助视频插入模块和潜在融合技术,确保编辑内容与原视频在时空维度上保持完美协调。

SketchVideo的主要功能
- 视频生成:利用草图轮廓和文字描述生成完整视频。
- 视频编辑:通过在关键帧绘制草图实现视频内容修改。
- 动态控制:提供运动插值和外推功能。
- 细节保留:在编辑过程中自动保留未修改区域的细节。
- 高效生成:经过内存优化,可快速输出高质量视频。
SketchVideo的技术原理
- 草图条件网络:在DiT视频生成模型架构中,嵌入了专门的草图条件网络。该网络包含多个草图控制块,负责预测DiT块跳过的残差特征。这些控制块被均匀分布在模型不同层级,实现多层次的特征控制。
- 帧间注意力机制:采用创新的帧间注意力机制,将关键帧草图条件传播至整个视频序列。通过计算各帧隐藏特征与控制帧特征的关联性,完成草图特征的时空传递。
- 视频插入模块:为视频编辑任务专门开发的模块,能够智能分析输入草图与原视频的关系。生成的编辑内容与原始素材在空间和时间维度上保持高度一致,实现无缝融合效果。
- 潜在融合技术:在推理阶段运用DDIM反演技术获取输入视频的噪声潜在码。对未编辑区域保留这些潜在码,确保原始细节得以完整保存,使最终输出视频呈现自然流畅的视觉效果。
- 混合训练策略:采用两阶段混合训练方案,首阶段结合图像和视频数据加速模型收敛,解决视频数据稀缺问题;第二阶段专注视频数据训练,进一步提升时间连贯性表现。
SketchVideo的项目地址
- 项目官网:http://geometrylearning.com/SketchVideo
- GitHub仓库:https://github.com/IGLICT/SketchVideo
- arXiv技术论文:https://arxiv.org/pdf/2503.23284
SketchVideo的应用场景
- 影视与广告:加速创意视频和特效预览制作,显著提升工作效率。
- 教育与培训:简化教学视频制作流程,提升知识传递效果。
- 游戏开发:快速生成游戏关卡和角色动画原型,缩短开发周期。
- 个人创作:降低视频创作门槛,赋能个人创意表达。
- 建筑设计:创建动态设计方案演示,改善客户沟通体验。
SketchVideo通过创新的技术方案,为视频创作领域带来了革命性的改变,让专业级视频制作变得触手可及。
相关标签:
可灵AI
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
OpenClaw 真正的效率开关,不是 Prompt,而是多会话和子代理
03/30
10款免费AI语音输入工具与软件 轻松实现语音转文字
03/30
MCP 协议深度解析:构建 AI Agent 的「万能接口」标准
03/30
WorkAny Bot 云端AI Agent工具采用OpenClaw框架构建
03/30
Anthropic 的 Harness 启示:当 AI Agent 开始「长跑」,架构才是真正的天花板
03/30
SkyBot由Skywork研发的云电脑AI助手
03/30
AI Agent 智能体 - Multi-Agent 架构入门
03/30
Nano Banana 2 国内使用指南 LiblibAI 无需翻墙教程
03/30
一文搞懂卷积神经网络经典架构-LeNet
03/30
一文搞懂深度学习中的池化!
03/30
AI精选
