谢赛宁团队开源Solaris多人视频世界生成模型

作者:互联网

2026-03-21

AI模型库

Solaris作为首个多人视频世界生成模型,在Minecraft中实现了跨玩家视角的同步生成,为多智能体交互研究开辟了新方向。

Solaris是什么

作为突破性的多人视频生成系统,Solaris能够在Minecraft中为两位玩家同时生成一致的第一人称视角。该模型创新性地解决了现有技术仅支持单玩家的局限,确保当一方玩家执行建造或移动操作时,另一玩家的视角能即时呈现相应变化。研发团队特别开发了SolarisEngine数据系统,采集1260万帧多人游戏数据,并创造性地采用Checkpointed Self Forcing训练方法攻克了长序列生成的内存难题。

Solaris的主要功能

  1. 实现多人视角同步生成功能,保证两位玩家视频内容的一致性,任何动作变化都能实时反映在对方视角中。
  2. 借助Checkpointed Self Forcing技术,支持长达224帧(11.2秒)的视频序列生成,有效防止视觉质量随时长下降。
  3. 完全兼容Minecraft各类动作输入,包括移动、视角调整、建造等操作,确保视频生成严格遵循指定动作序列。
  4. 能够模拟复杂的游戏动态,如背包状态同步、天气变化、物理建造以及PvP战斗等场景。

Solaris的技术原理

  1. 采用多人DiT架构,在MatrixGame 2.0基础上扩展动作空间,新增跨玩家自注意力层实现信息交换,通过玩家ID嵌入区分不同视角。
  2. 实施四阶段渐进训练策略,从单玩家预训练开始,逐步过渡到多人数据训练,最终通过Checkpointed Self Forcing实现长序列稳定生成。
  3. Checkpointed Self Forcing技术通过无梯度生成和缓存机制,显著降低内存占用,同时支持KV缓存梯度回传以提升生成质量。
  4. 构建SolarisEngine数据系统,基于Mineflayer控制器和官方客户端相机分离架构,实现状态实时同步,并通过Docker容器化确保系统稳定性。

Solaris的项目地址

  1. 项目官网:https://solaris-wm.github.io/
  2. GitHub仓库:https://github.com/solaris-wm/solaris
  3. HuggingFace模型库:https://huggingface.co/collections/nyu-visionx/solaris-models
  4. arXiv技术论文:https://arxiv.org/pdf/2602.22208

Solaris的应用场景

  1. 作为多智能体世界模拟器,为机器人及游戏AI提供合成训练数据,降低真实环境试错成本。
  2. 支持多人协同任务模拟,可用于AI代理协作能力训练及社会智能研究。
  3. 生成多视角视频-动作-语言对齐数据,助力视觉-语言-动作模型开发。
  4. 作为3D场景理解测试平台,评估模型在视角一致性等核心能力上的表现。

Solaris通过创新的多人视频生成技术,为多智能体交互研究提供了强大工具,其应用前景值得期待。

相关标签:

AI工具 AI项目和工具