DeepMind推出视觉模型思维链CoF

作者:互联网

2026-03-29

⼤语⾔模型脚本

CoF作为DeepMind提出的创新技术,通过逐帧生成视频实现视觉推理,为视频模型开辟了类似语言模型"链式思维"的推理路径。

CoF是什么

CoF(Chain-of-Frames,帧链)是DeepMind推出的新概念,类比于语言模型中的"链式思维"(Chain-of-Thought,CoT)。该技术让视频模型具备时空推理能力,通过连续生成视频帧来解决复杂视觉问题。以Veo 3模型为例,它运用CoF成功处理了迷宫路径规划、对称性任务和视觉类比推理等挑战,展示了视频模型在通用视觉理解领域的巨大潜力。

CoF的主要功能

  1. 视觉推理:通过连续生成视频帧,CoF可以逐步解决各类视觉问题,包括迷宫路径寻找、对称图形绘制和视觉类比推理等任务。
  2. 跨时空操作:该技术能对视频中的对象实施移动、变形或属性修改等操作,同时确保视频内容的时空连贯性。
  3. 通用视觉理解:CoF帮助视频模型掌握物理规则、抽象关系和动态变化,实现零样本学习下的通用视觉任务处理。
  4. 生成连贯视频:该技术保证生成的视频在时空维度上保持逻辑一致性,使内容符合物理规律和现实约束。

CoF的技术原理

  1. 生成模型:基于大规模训练数据,CoF利用生成模型学习视频的时空结构和动态变化规律。
  2. 提示驱动:系统通过自然语言提示和初始图像引导模型,前者明确任务目标,后者提供视频生成的首帧参考。
  3. 逐帧推理:模型采用类似语言模型链式思维的方式,基于前序帧状态和提示信息逐步生成后续视频帧。
  4. 物理和逻辑约束:所有生成内容必须遵循物理定律和现实逻辑,确保物体运动等行为符合客观规律。
  5. 优化和反馈:通过多次生成和结果优选机制,模型能够持续提升视频生成质量和任务完成准确率。

CoF的项目地址

  1. 技术论文:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

CoF的应用场景

  1. 迷宫求解:通过逐帧规划,生成物体在迷宫中寻找最优路径的完整视频过程。
  2. 视觉对称性任务:逐步填充空白部分,完成对称图形的自动绘制和生成。
  3. 物理模拟:精确模拟物体运动、碰撞和浮力等物理现象,生成符合科学规律的动态视频。
  4. 图像编辑:应用于背景移除、风格转换等编辑任务,通过视频帧序列呈现完整的编辑过程。
  5. 视觉类比:解决视觉类比问题,通过连续推理生成缺失部分,完成视觉类比任务。

CoF技术通过创新的视频推理方式,为计算机视觉领域带来了突破性的发展,展现出在复杂视觉任务处理方面的卓越能力。

相关标签:

GoogleVeo3.1