SketchVideo-快手携手多所高校研发草图视频生成编辑框架

作者:互联网

2026-03-24

⼤语⾔模型脚本

SketchVideo作为前沿的视频生成与编辑框架,通过草图与文本的智能结合,实现了对视频内容的精准控制,为创意表达开辟了新途径。

SketchVideo是什么

由中国科学院大学、香港科技大学和快手可灵团队联合研发的SketchVideo,是一款创新的基于草图的视频生成与编辑系统。该系统允许用户在关键帧绘制草图,配合文本提示,就能精确控制视频的空间布局和动态效果。其核心技术建立在DiT视频生成模型基础上,通过专门设计的草图控制网络和帧间注意力机制,实现了草图条件向所有视频帧的高效传播。该框架不仅能处理真实视频素材,还支持合成视频的精细化编辑,借助视频插入模块和潜在融合技术,确保编辑内容与原视频在时空维度上保持完美协调。

SketchVideo的主要功能

  1. 视频生成:利用草图轮廓和文字描述生成完整视频。
  2. 视频编辑:通过在关键帧绘制草图实现视频内容修改。
  3. 动态控制:提供运动插值和外推功能。
  4. 细节保留:在编辑过程中自动保留未修改区域的细节。
  5. 高效生成:经过内存优化,可快速输出高质量视频。

SketchVideo的技术原理

  1. 草图条件网络:在DiT视频生成模型架构中,嵌入了专门的草图条件网络。该网络包含多个草图控制块,负责预测DiT块跳过的残差特征。这些控制块被均匀分布在模型不同层级,实现多层次的特征控制。
  2. 帧间注意力机制:采用创新的帧间注意力机制,将关键帧草图条件传播至整个视频序列。通过计算各帧隐藏特征与控制帧特征的关联性,完成草图特征的时空传递。
  3. 视频插入模块:为视频编辑任务专门开发的模块,能够智能分析输入草图与原视频的关系。生成的编辑内容与原始素材在空间和时间维度上保持高度一致,实现无缝融合效果。
  4. 潜在融合技术:在推理阶段运用DDIM反演技术获取输入视频的噪声潜在码。对未编辑区域保留这些潜在码,确保原始细节得以完整保存,使最终输出视频呈现自然流畅的视觉效果。
  5. 混合训练策略:采用两阶段混合训练方案,首阶段结合图像和视频数据加速模型收敛,解决视频数据稀缺问题;第二阶段专注视频数据训练,进一步提升时间连贯性表现。

SketchVideo的项目地址

  1. 项目官网:http://geometrylearning.com/SketchVideo
  2. GitHub仓库:https://github.com/IGLICT/SketchVideo
  3. arXiv技术论文:https://arxiv.org/pdf/2503.23284

SketchVideo的应用场景

  1. 影视与广告:加速创意视频和特效预览制作,显著提升工作效率。
  2. 教育与培训:简化教学视频制作流程,提升知识传递效果。
  3. 游戏开发:快速生成游戏关卡和角色动画原型,缩短开发周期。
  4. 个人创作:降低视频创作门槛,赋能个人创意表达。
  5. 建筑设计:创建动态设计方案演示,改善客户沟通体验。

SketchVideo通过创新的技术方案,为视频创作领域带来了革命性的改变,让专业级视频制作变得触手可及。

相关标签:

可灵AI