AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

具身智能半月谈No.5｜LaST₀首创潜在时空思维链快慢VLA

作者：互联网

2026-03-24

AI模型库

机器人领域迎来重大突破！LaST₀模型创新性地采用潜在时空思维链与双系统架构，完美平衡深度推理与高频动作控制，为具身智能发展开辟新路径。下面将深入解析这项前沿技术的核心原理与卓越表现。

核心贡献与技术亮点

LaST₀ 最大的突破在于它放弃了传统的基于显式文本或 Token 的思维链，转而引入了"潜在时空思维链（Latent Spatio-Temporal CoT）"。这意味着，LaST₀ 不再试图用"语言"去生硬地描述复杂的物理规律，而是在一个高度紧凑的隐式空间中自回归地预测未来的二维图像、三维点云和本体感知状态。这种设计不仅能精准捕捉那些"只可意会不可言传"的精细物理与机器人动力学，还大幅提升了动作在时间序列上的连贯性。

为了实现极高的运行效率，LaST₀ 借鉴了人类"快慢思考"的模式，基于 Mixture-of-Transformers (MoT) 设计了双系统架构：

慢速推理专家（深度思考）：负责低频运行，在隐式空间中提取并处理复杂的时空依赖关系，构建对环境的深刻认知。
快速动作专家（敏捷执行）：负责高频运行，根据最新的环境观测和慢速专家提供的隐式表示，直接在动作空间中生成实时的控制指令。

通过共享自注意力机制，两位"专家"在同一个 VLA 模型（均由预训练的 Janus-Pro 初始化）中实现了无缝的长上下文交互，完美协调了推理与控制。不仅如此，在下游联合训练中，模型还学会了在不同快慢操作频率比率下自适应切换。在 10 项仿真任务和 10 项复杂的真实世界任务（涵盖桌面单/双臂、移动底座、灵巧手等多种操作场景）的系统评估中，LaST₀ 交出了极其亮眼的答卷：

仿真环境：成功率超越此前 SOTA（最先进）方法 8%。
真实场景：在三大真实场景中分别实现 13%、14% 和 14% 的显著性能提升。
极致加速：相比以往的显式 CoT VLA 模型，推理速度实现了惊人的 14倍提升！

此外，LaST₀ 在长程任务中表现出极强的动态适应性，例如能够轻松应对动态环境变化，完成"连续从锅中舀起鸡蛋"等复杂操作。

潜在时空思维链机制

为了让机器人能够"领悟"那些难以用语言描述的精细物理规律与动力学特征，并实现高效的时序建模，研究团队创新性地构建了潜在时空思维链（Latent Spatio-Temporal CoT，简称 LaST CoT）。其核心技术拆解如下：

1、三重模态融合，构建"隐式感知空间"

为了精准预判未来的物理世界，研究团队从三个互补的维度提取了未来时间步 k∈{1, …,H}的特征，形成完整的物理表示：

视觉隐式表示 zₖᵛ：利用冻结的 SigLIP-Large 编码器处理未来的 RGB 图像 Iₜ₊ₖ
几何隐式表示 zₖᵖ：通过 Uni3D 编码器处理未来的 3D 点云 Pₜ₊ₖ，精准捕捉空间占据情况。
本体感知表示 zₖˢ：通过动作分词器，将未来的机器人状态 sₜ₊ₖ 转换为隐式特征。

为了确保极高的推理效率，研究团队没有选择解码高昂的像素级图像或长文本序列。相反，他们通过平均池化，将上述高维特征图直接压缩为单个代表性的 Token，生成了一组紧凑的嵌入 {zₖᵛ, zₖᵖ, zₖˢ}。这些 Token 按时间顺序交错排列，极大地帮助模型学习不同模态间随时间变化的物理因果关系。

2、引入特殊占位符，规范序列结构

为了让"思考"与"行动"更有条理，研究团队在序列中引入了三个特殊 Token：、以及占位符。

训练阶段：模型使用真实的隐式序列替换掉，通过标准的 Teacher Forcing 机制学习环境的转换动力学。
推理阶段：慢速推理专家会以起头，自回归地生成隐式嵌入，逐一填满的位置，直到覆盖预设的预测时间范围。

3、连续隐式回归，精准对齐物理动态

虽然慢速推理专家的思考过程是自回归的（一步接一步），但研究团队并没有采用大语言模型中常见的"离散 Token 概率预测"来训练它，而是选择了一条更契合物理世界运作规律的道路——连续隐式回归。

"下一步预测"机制：慢速专家会在已知当前环境和上下文的情况下，预测出一系列未来的潜在推理状态。
告别传统 CoT 的离散预测：传统的思维链（CoT）通常是在预测下一个"词"，但研究团队的隐式目标，是一组能够真正编码未来物理世界状态的连续高维嵌入向量。
余弦相似度对齐：为了让模型预测的隐式表示与真实的未来状态高度一致，研究团队采用了"余弦相似度"作为监督目标。

双系统协作架构

为了让机器人的"深度思考"（LaST CoT 推理）与"敏捷行动"（高频控制）互不拖累，研究团队创新性地引入了一种异步频率机制。

简单来说，研究团队设置了一组更新比率 k（例如 k∈{2,4,8}）），通过这把"标尺"成功解耦了两个专家的运行节奏，让它们各司其职：

慢速推理专家（主导思考）：在稀疏的关键帧（即 t mod κ = 0时）被唤醒。会接收自然语言指令和低频观测数据I_slow，通过自回归推演出包含未来物理动态的隐式思维链。在连续关键帧的间隙（即 t mod κ ≠ 0 时）会进入"休眠"状态以节省算力开销。
快速执行专家（主导执行）：始终以原生的控制频率高频运转，在每个时间步都保持活跃。它专为快速闭环反馈而生，仅接收高频观测数据I_fast。当慢速专家处于休眠期时，快速专家会直接以最新生成的"潜在推理输出"为指导，实时生成具体动作。

为了打破不同运行频率和数据源带来的沟通壁垒，MoT 架构巧妙地维护了一个统一的 Token 序列，使得快速执行专家能够通过共享注意力机制，高效提取语言目标与隐式 CoT Token，轻松实现了跨频段的无缝协同。

实验评估

为了验证 LaST₀ 的实际效果，研究团队在 RLBench 模拟器中对其进行了严格的压力测试。结果表明，LaST₀ 不仅"想得深"，而且"动得快"。

1、成功率断层领先，霸榜多项核心任务

在 10 项复杂的 RLBench 操作任务中，LaST₀-3.3B 模型（在 1:4 的快慢评估比例下）交出了高达 82% 的平均成功率答卷。这一成绩直接拉开了与现有最强方法的差距：

相较 HybridVLA-7B (74%) 高出 8%
相较 π0.5-