DeepMind推出视觉模型思维链CoF
作者:互联网
2026-03-29
CoF作为DeepMind提出的创新技术,通过逐帧生成视频实现视觉推理,为视频模型开辟了类似语言模型"链式思维"的推理路径。
CoF是什么
CoF(Chain-of-Frames,帧链)是DeepMind推出的新概念,类比于语言模型中的"链式思维"(Chain-of-Thought,CoT)。该技术让视频模型具备时空推理能力,通过连续生成视频帧来解决复杂视觉问题。以Veo 3模型为例,它运用CoF成功处理了迷宫路径规划、对称性任务和视觉类比推理等挑战,展示了视频模型在通用视觉理解领域的巨大潜力。

CoF的主要功能
- 视觉推理:通过连续生成视频帧,CoF可以逐步解决各类视觉问题,包括迷宫路径寻找、对称图形绘制和视觉类比推理等任务。
- 跨时空操作:该技术能对视频中的对象实施移动、变形或属性修改等操作,同时确保视频内容的时空连贯性。
- 通用视觉理解:CoF帮助视频模型掌握物理规则、抽象关系和动态变化,实现零样本学习下的通用视觉任务处理。
- 生成连贯视频:该技术保证生成的视频在时空维度上保持逻辑一致性,使内容符合物理规律和现实约束。
CoF的技术原理
- 生成模型:基于大规模训练数据,CoF利用生成模型学习视频的时空结构和动态变化规律。
- 提示驱动:系统通过自然语言提示和初始图像引导模型,前者明确任务目标,后者提供视频生成的首帧参考。
- 逐帧推理:模型采用类似语言模型链式思维的方式,基于前序帧状态和提示信息逐步生成后续视频帧。
- 物理和逻辑约束:所有生成内容必须遵循物理定律和现实逻辑,确保物体运动等行为符合客观规律。
- 优化和反馈:通过多次生成和结果优选机制,模型能够持续提升视频生成质量和任务完成准确率。
CoF的项目地址
- 技术论文:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf
CoF的应用场景
- 迷宫求解:通过逐帧规划,生成物体在迷宫中寻找最优路径的完整视频过程。
- 视觉对称性任务:逐步填充空白部分,完成对称图形的自动绘制和生成。
- 物理模拟:精确模拟物体运动、碰撞和浮力等物理现象,生成符合科学规律的动态视频。
- 图像编辑:应用于背景移除、风格转换等编辑任务,通过视频帧序列呈现完整的编辑过程。
- 视觉类比:解决视觉类比问题,通过连续推理生成缺失部分,完成视觉类比任务。
CoF技术通过创新的视频推理方式,为计算机视觉领域带来了突破性的发展,展现出在复杂视觉任务处理方面的卓越能力。
相关标签:
GoogleVeo3.1
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
我让 Claude 和 Codex 同时审计 26 个模块,它们只在 10 个上达成共识
03/30
OpenClaw 多智能体部署:弹性扩展、零运维
03/30
STranslate 多功能免费AI翻译工具 支持离线OCR识别
03/30
Claude在得物App数仓的深度集成与效能演进
03/30
南京大学提出基于区域感知的RAG-Diffusion文本图像生成技术
03/30
人民大学携手快手与清华共同发布通用对口型框架OmniSync
03/30
有了AI大家的日常是轻松了还是更焦虑了呢?
03/30
我想搭建一个AI编程平台:让每个人都能用提示词“召唤”出想要的项目
03/30
腾讯联合浙大推出音频驱动肖像动画框架Sonic
03/29
如何用AI制作红包封面一分钟免费搞定
03/29
AI精选
