谢赛宁团队开源Solaris多人视频世界生成模型
作者:互联网
2026-03-21
Solaris作为首个多人视频世界生成模型,在Minecraft中实现了跨玩家视角的同步生成,为多智能体交互研究开辟了新方向。
Solaris是什么
作为突破性的多人视频生成系统,Solaris能够在Minecraft中为两位玩家同时生成一致的第一人称视角。该模型创新性地解决了现有技术仅支持单玩家的局限,确保当一方玩家执行建造或移动操作时,另一玩家的视角能即时呈现相应变化。研发团队特别开发了SolarisEngine数据系统,采集1260万帧多人游戏数据,并创造性地采用Checkpointed Self Forcing训练方法攻克了长序列生成的内存难题。

Solaris的主要功能
- 实现多人视角同步生成功能,保证两位玩家视频内容的一致性,任何动作变化都能实时反映在对方视角中。
- 借助Checkpointed Self Forcing技术,支持长达224帧(11.2秒)的视频序列生成,有效防止视觉质量随时长下降。
- 完全兼容Minecraft各类动作输入,包括移动、视角调整、建造等操作,确保视频生成严格遵循指定动作序列。
- 能够模拟复杂的游戏动态,如背包状态同步、天气变化、物理建造以及PvP战斗等场景。
Solaris的技术原理
- 采用多人DiT架构,在MatrixGame 2.0基础上扩展动作空间,新增跨玩家自注意力层实现信息交换,通过玩家ID嵌入区分不同视角。
- 实施四阶段渐进训练策略,从单玩家预训练开始,逐步过渡到多人数据训练,最终通过Checkpointed Self Forcing实现长序列稳定生成。
- Checkpointed Self Forcing技术通过无梯度生成和缓存机制,显著降低内存占用,同时支持KV缓存梯度回传以提升生成质量。
- 构建SolarisEngine数据系统,基于Mineflayer控制器和官方客户端相机分离架构,实现状态实时同步,并通过Docker容器化确保系统稳定性。
Solaris的项目地址
- 项目官网:https://solaris-wm.github.io/
- GitHub仓库:https://github.com/solaris-wm/solaris
- HuggingFace模型库:https://huggingface.co/collections/nyu-visionx/solaris-models
- arXiv技术论文:https://arxiv.org/pdf/2602.22208
Solaris的应用场景
- 作为多智能体世界模拟器,为机器人及游戏AI提供合成训练数据,降低真实环境试错成本。
- 支持多人协同任务模拟,可用于AI代理协作能力训练及社会智能研究。
- 生成多视角视频-动作-语言对齐数据,助力视觉-语言-动作模型开发。
- 作为3D场景理解测试平台,评估模型在视角一致性等核心能力上的表现。
Solaris通过创新的多人视频生成技术,为多智能体交互研究提供了强大工具,其应用前景值得期待。
相关标签:
AI工具
AI项目和工具
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
NanoClaw 开源轻量级个人AI助手 安全可靠的OpenClaw替代方案
03/30
MonsterClaw 采用 OpenClaw 技术打造的本地化AI运行平台
03/30
TinyClaw 由TinyAGI推出的开源轻量级多智能体协作框架
03/30
携程酒店业务借助NebulaGraph实现月均风控止损逾百万元
03/30
稀宇科技开源MiniMax Office Skills生产级办公文档引擎
03/27
ToClaw由ToDesk打造的专业定制AI智能体
03/26
TypeNo 免费开源的中文AI语音输入法 无需配置直接使用
03/26
Sub2API 开源人工智能API中转网关平台 具备多账户管理功能
03/26
阿里通义推出视频生成音频框架PrismAudio
03/26
Luma AI发布Uni-1模型实现图像理解与生成一体化
03/25
AI精选
