商汤科技开源多模态自主推理模型SenseNova-MARS
作者:互联网
2026-03-28
SenseNova-MARS作为前沿的多模态自主推理模型,通过创新的动态视觉推理技术重新定义了AI执行能力。其突破性的工具调用机制与强大的跨模态理解能力,为复杂任务处理开辟了新路径。
SenseNova-MARS是什么
SenseNova-MARS是开源的多模态自主推理模型,提供8B和32B两种参数规模。该模型首创动态视觉推理与图文搜索深度融合的智能体架构,能够自主规划任务流程并调用三大核心工具。在多项基准测试中,其32B版本以69.74分的平均成绩超越主流商业模型,实现了从被动应答到主动执行的重大突破。

SenseNova-MARS的主要功能
- 多模态搜索推理:结合图像与文本信息进行跨模态检索,动态调用工具完成多步知识推理。
- 细粒度视觉分析:支持处理超高分辨率图像,精确识别并分析占比极小的视觉元素。
- 自主Agent执行:具备任务自主规划能力,通过多工具协同形成闭环解决方案。
SenseNova-MARS的技术原理
- 双阶段训练架构:首先通过监督微调掌握基础工具使用,再采用强化学习优化多工具协同策略,BN-GSPO算法有效解决了训练稳定性问题。
- BN-GSPO强化学习算法:通过组内与批次双重归一化处理,平衡不同任务的奖励信号,确保多工具场景下的稳定训练。
- 动作空间与工具设计:提供文本搜索、图像搜索、图像裁剪及终止回答四个标准动作,所有工具调用均采用严格规范的JSON格式。
- 奖励模型机制:以GPT-4o为评判标准,从答案准确性和格式合规性两个维度提供训练反馈,确保输出质量。
- 自动化数据合成:通过视觉锚点定位、多跳关联检索及自洽性校验三环节,自动构建高质量训练数据。
SenseNova-MARS的项目地址
- GitHub仓库:https://github.com/OpenSenseNova/SenseNova-MARS
- HuggingFace模型库:
- https://huggingface.co/sensenova/SenseNova-MARS-32B
- https://huggingface.co/sensenova/SenseNova-MARS-8B
- arXiv技术论文:https://arxiv.org/pdf/2512.24330
SenseNova-MARS的应用场景
- 体育竞技分析:精确识别赛事细节并关联背景信息,辅助数据验证与结果分析。
- 商业情报挖掘:快速提取视觉商业信息,整合多维数据支持决策分析。
- 新闻事实核查:追溯新闻图像背景信息,验证社交媒体内容的真实性。
- 学术研究与教育:自动解析学术图表,加速文献检索与知识整合过程。
- 地理旅行探索:识别地标细节并实时提供文化背景,提升导览体验。
SenseNova-MARS通过创新的多模态推理架构,为各类复杂场景提供了智能化的解决方案。其强大的自主执行能力与稳定的工具调用机制,展现出广阔的应用前景。
相关标签:
Gemini
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
OpenClaw 真正的效率开关,不是 Prompt,而是多会话和子代理
03/30
10款免费AI语音输入工具与软件 轻松实现语音转文字
03/30
MCP 协议深度解析:构建 AI Agent 的「万能接口」标准
03/30
WorkAny Bot 云端AI Agent工具采用OpenClaw框架构建
03/30
Anthropic 的 Harness 启示:当 AI Agent 开始「长跑」,架构才是真正的天花板
03/30
SkyBot由Skywork研发的云电脑AI助手
03/30
AI Agent 智能体 - Multi-Agent 架构入门
03/30
Nano Banana 2 国内使用指南 LiblibAI 无需翻墙教程
03/30
一文搞懂卷积神经网络经典架构-LeNet
03/30
一文搞懂深度学习中的池化!
03/30
AI精选
