具身智能半月谈No.5|LaST₀首创潜在时空思维链快慢VLA

作者:互联网

2026-03-24

AI模型库

机器人领域迎来重大突破!LaST₀模型创新性地采用潜在时空思维链与双系统架构,完美平衡深度推理与高频动作控制,为具身智能发展开辟新路径。下面将深入解析这项前沿技术的核心原理与卓越表现。

核心贡献与技术亮点

LaST₀ 最大的突破在于它放弃了传统的基于显式文本或 Token 的思维链,转而引入了"潜在时空思维链(Latent Spatio-Temporal CoT)"。这意味着,LaST₀ 不再试图用"语言"去生硬地描述复杂的物理规律,而是在一个高度紧凑的隐式空间中自回归地预测未来的二维图像、三维点云和本体感知状态。这种设计不仅能精准捕捉那些"只可意会不可言传"的精细物理与机器人动力学,还大幅提升了动作在时间序列上的连贯性。

https://images.jiaoben.net/uploads/20260318/img_69ba6cceda79430.png

为了实现极高的运行效率,LaST₀ 借鉴了人类"快慢思考"的模式,基于 Mixture-of-Transformers (MoT) 设计了双系统架构:

  1. 慢速推理专家(深度思考):负责低频运行,在隐式空间中提取并处理复杂的时空依赖关系,构建对环境的深刻认知。
  2. 快速动作专家(敏捷执行):负责高频运行,根据最新的环境观测和慢速专家提供的隐式表示,直接在动作空间中生成实时的控制指令。

https://images.jiaoben.net/uploads/20260318/img_69ba6cceda7a831.png

通过共享自注意力机制,两位"专家"在同一个 VLA 模型(均由预训练的 Janus-Pro 初始化)中实现了无缝的长上下文交互,完美协调了推理与控制。不仅如此,在下游联合训练中,模型还学会了在不同快慢操作频率比率下自适应切换。在 10 项仿真任务和 10 项复杂的真实世界任务(涵盖桌面单/双臂、移动底座、灵巧手等多种操作场景)的系统评估中,LaST₀ 交出了极其亮眼的答卷:

  1. 仿真环境:成功率超越此前 SOTA(最先进)方法 8%。
  2. 真实场景:在三大真实场景中分别实现 13%、14% 和 14% 的显著性能提升。
  3. 极致加速:相比以往的显式 CoT VLA 模型,推理速度实现了惊人的 14倍提升!

此外,LaST₀ 在长程任务中表现出极强的动态适应性,例如能够轻松应对动态环境变化,完成"连续从锅中舀起鸡蛋"等复杂操作。

潜在时空思维链机制

为了让机器人能够"领悟"那些难以用语言描述的精细物理规律与动力学特征,并实现高效的时序建模,研究团队创新性地构建了潜在时空思维链(Latent Spatio-Temporal CoT,简称 LaST CoT)。其核心技术拆解如下:

1、三重模态融合,构建"隐式感知空间"

为了精准预判未来的物理世界,研究团队从三个互补的维度提取了未来时间步 k∈{1, …,H}的特征,形成完整的物理表示:

  1. 视觉隐式表示 zₖᵛ:利用冻结的 SigLIP-Large 编码器处理未来的 RGB 图像 Iₜ₊ₖ
  2. 几何隐式表示 zₖᵖ:通过 Uni3D 编码器处理未来的 3D 点云 Pₜ₊ₖ,精准捕捉空间占据情况。
  3. 本体感知表示 zₖˢ:通过动作分词器,将未来的机器人状态 sₜ₊ₖ 转换为隐式特征。

为了确保极高的推理效率,研究团队没有选择解码高昂的像素级图像或长文本序列。相反,他们通过平均池化,将上述高维特征图直接压缩为单个代表性的 Token,生成了一组紧凑的嵌入 {zₖᵛ, zₖᵖ, zₖˢ}。这些 Token 按时间顺序交错排列,极大地帮助模型学习不同模态间随时间变化的物理因果关系。

https://images.jiaoben.net/uploads/20260318/img_69ba6cceda7b332.png

2、引入特殊占位符,规范序列结构

为了让"思考"与"行动"更有条理,研究团队在序列中引入了三个特殊 Token: 以及占位符

  1. 训练阶段:模型使用真实的隐式序列替换掉 ,通过标准的 Teacher Forcing 机制学习环境的转换动力学。
  2. 推理阶段:慢速推理专家会以 起头,自回归地生成隐式嵌入,逐一填满 的位置,直到覆盖预设的预测时间范围。

3、连续隐式回归,精准对齐物理动态

虽然慢速推理专家的思考过程是自回归的(一步接一步),但研究团队并没有采用大语言模型中常见的"离散 Token 概率预测"来训练它,而是选择了一条更契合物理世界运作规律的道路——连续隐式回归。

  1. "下一步预测"机制:慢速专家会在已知当前环境和上下文的情况下,预测出一系列未来的潜在推理状态。
  2. 告别传统 CoT 的离散预测:传统的思维链(CoT)通常是在预测下一个"词",但研究团队的隐式目标,是一组能够真正编码未来物理世界状态的连续高维嵌入向量。
  3. 余弦相似度对齐:为了让模型预测的隐式表示与真实的未来状态高度一致,研究团队采用了"余弦相似度"作为监督目标。

https://images.jiaoben.net/uploads/20260318/img_69ba6cceda7be33.png

双系统协作架构

为了让机器人的"深度思考"(LaST CoT 推理)与"敏捷行动"(高频控制)互不拖累,研究团队创新性地引入了一种异步频率机制。

简单来说,研究团队设置了一组更新比率 k(例如 k∈{2,4,8})),通过这把"标尺"成功解耦了两个专家的运行节奏,让它们各司其职:

  1. 慢速推理专家(主导思考):在稀疏的关键帧(即 t mod κ = 0时)被唤醒。会接收自然语言指令和低频观测数据I_slow,通过自回归推演出包含未来物理动态的隐式思维链。在连续关键帧的间隙(即 t mod κ ≠ 0 时)会进入"休眠"状态以节省算力开销。
  2. 快速执行专家(主导执行):始终以原生的控制频率高频运转,在每个时间步都保持活跃。它专为快速闭环反馈而生,仅接收高频观测数据I_fast。当慢速专家处于休眠期时,快速专家会直接以最新生成的"潜在推理输出"为指导,实时生成具体动作。

为了打破不同运行频率和数据源带来的沟通壁垒,MoT 架构巧妙地维护了一个统一的 Token 序列,使得快速执行专家能够通过共享注意力机制,高效提取语言目标与隐式 CoT Token,轻松实现了跨频段的无缝协同。

实验评估

为了验证 LaST₀ 的实际效果,研究团队在 RLBench 模拟器中对其进行了严格的压力测试。结果表明,LaST₀ 不仅"想得深",而且"动得快"。

1、成功率断层领先,霸榜多项核心任务

在 10 项复杂的 RLBench 操作任务中,LaST₀-3.3B 模型(在 1:4 的快慢评估比例下)交出了高达 82% 的平均成功率答卷。这一成绩直接拉开了与现有最强方法的差距:

  1. 相较 HybridVLA-7B (74%) 高出 8%
  2. 相较 π0.5-

相关标签:

潜在时空思维链 快慢双系统 MoT架构