Jamba由AI21开源的首款Mamba架构大模型

作者:互联网

2026-03-25

⼤语⾔模型脚本

Jamba作为AI21 Labs推出的创新大语言模型,首次将Mamba架构与传统Transformer相结合,展现出强大的文本处理能力和高效性能。这种混合架构不仅支持256K上下文窗口,更在资源占用和输出质量间取得了突破性平衡。

Jamba是什么

作为首个基于Mamba架构的生产级大模型,Jamba突破了传统Transformer的局限。该模型创造性地融合了结构化状态空间模型与Transformer架构,在保持高质量输出的同时,显著提升了吞吐效率。其256K上下文窗口设计,使长文本处理能力达到行业领先水平。

采用Apache 2.0开源许可的Jamba,目前以研究模型形式开放权重。虽然暂未针对商业场景优化,但AI21 Labs已预告将推出经过微调的安全版本,为后续应用奠定基础。

Jamba的官网入口

  1. 官方项目主页:https://www.ai21.com/jamba
  2. 官方博客介绍:https://www.ai21.com/blog/announcing-jamba
  3. Hugging Face地址:https://huggingface.co/ai21labs/Jamba-v0.1

Jamba的主要特性

  1. SSM-Transformer混合架构:创新性地将Mamba SSM与传统Transformer结合,这种生产级混合架构大幅提升了模型效能。
  2. 大容量上下文窗口:256K的超长上下文支持,使复杂文本处理成为可能。
  3. 高吞吐量:相比Mixtral 8x7B,在处理长文本时实现3倍效率飞跃。
  4. 单GPU大容量处理:单块GPU即可支持140K上下文处理,显著降低部署门槛。
  5. 开放权重许可:Apache 2.0许可赋予开发者自由修改权,推动技术共享创新。
  6. NVIDIA API集成:通过NVIDIA NIM微服务,为企业级部署提供便捷通道。
  7. 优化的MoE层:智能参数激活机制,在不增加算力需求下提升模型容量。

Jamba的技术架构

Jamba采用模块化设计,通过精心配置的块层结构,成功整合两种架构优势。每个功能块包含注意力层或Mamba层,配合多层感知器,形成1:8的Transformer层配比。

MoE技术的引入使模型在保持计算效率的同时,大幅扩展参数规模。经过特别优化的专家层配置,确保在80GB GPU上实现最佳性能平衡。

Jamba的性能对比

基准测试数据显示,Jamba在HellaSwag、ArcChallenge等多项评估中表现卓越。无论是语言理解还是科学推理任务,其性能均超越同尺寸的主流模型,包括Llama2系列和Gemma等竞争对手。

Jamba通过创新架构与前沿技术的融合,为大规模语言处理树立了新标杆。其出色的性能表现和开放生态,预示着AI模型发展的新方向。

相关标签:

Gemini