Jamba由AI21开源的首款Mamba架构大模型-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

Jamba由AI21开源的首款Mamba架构大模型

作者：互联网

2026-03-25

⼤语⾔模型脚本

Jamba作为AI21 Labs推出的创新大语言模型，首次将Mamba架构与传统Transformer相结合，展现出强大的文本处理能力和高效性能。这种混合架构不仅支持256K上下文窗口，更在资源占用和输出质量间取得了突破性平衡。

Jamba是什么

作为首个基于Mamba架构的生产级大模型，Jamba突破了传统Transformer的局限。该模型创造性地融合了结构化状态空间模型与Transformer架构，在保持高质量输出的同时，显著提升了吞吐效率。其256K上下文窗口设计，使长文本处理能力达到行业领先水平。

采用Apache 2.0开源许可的Jamba，目前以研究模型形式开放权重。虽然暂未针对商业场景优化，但AI21 Labs已预告将推出经过微调的安全版本，为后续应用奠定基础。

Jamba的官网入口

官方项目主页：https://www.ai21.com/jamba
官方博客介绍：https://www.ai21.com/blog/announcing-jamba
Hugging Face地址：https://huggingface.co/ai21labs/Jamba-v0.1

Jamba的主要特性

SSM-Transformer混合架构：创新性地将Mamba SSM与传统Transformer结合，这种生产级混合架构大幅提升了模型效能。
大容量上下文窗口：256K的超长上下文支持，使复杂文本处理成为可能。
高吞吐量：相比Mixtral 8x7B，在处理长文本时实现3倍效率飞跃。
单GPU大容量处理：单块GPU即可支持140K上下文处理，显著降低部署门槛。
开放权重许可：Apache 2.0许可赋予开发者自由修改权，推动技术共享创新。
NVIDIA API集成：通过NVIDIA NIM微服务，为企业级部署提供便捷通道。
优化的MoE层：智能参数激活机制，在不增加算力需求下提升模型容量。

Jamba的技术架构

Jamba采用模块化设计，通过精心配置的块层结构，成功整合两种架构优势。每个功能块包含注意力层或Mamba层，配合多层感知器，形成1:8的Transformer层配比。

MoE技术的引入使模型在保持计算效率的同时，大幅扩展参数规模。经过特别优化的专家层配置，确保在80GB GPU上实现最佳性能平衡。

Jamba的性能对比

基准测试数据显示，Jamba在HellaSwag、ArcChallenge等多项评估中表现卓越。无论是语言理解还是科学推理任务，其性能均超越同尺寸的主流模型，包括Llama2系列和Gemma等竞争对手。

Jamba通过创新架构与前沿技术的融合，为大规模语言处理树立了新标杆。其出色的性能表现和开放生态，预示着AI模型发展的新方向。

相关推荐

AI Agent 智能体 - Multi-Agent 架构入门大家好，我是双越。wangEditor 作者，前百度滴滴资深前端工程师，慕课网金牌讲师，PMP，前端面试派作者。本文介绍 Multi-agent 智能体架构和实践。

2026-03-30

立即查看

RAG 不一定非得靠向量库：一套更偏工程落地的“结构化推理检索”方案这两年只要聊 RAG，大家脑子里默认浮现出来的，基本都是同一套流程：切 chunk。做 embedding。进向量库。 top-k 检索。必要时 rerank。最后把上下文塞给 LLM。这

2026-03-30

立即查看

一文搞懂深度学习中的池化！在卷积神经网络（CNN）中，卷积层用于提取图像或特征图的局部模式，而池化（Pooling）是卷积之后常用的一种下采样操作。池化可以降低特征图尺寸、减少计算量，并增强模型对位置和噪声的鲁棒性。

2026-03-30

立即查看

一文搞懂卷积神经网络经典架构-LeNet LeNet 是卷积神经网络（CNN）的早期代表，由 Yann LeCun 等人在 1989 年提出，最初用于手写数字识别（MNIST 数据集）。作为最早成功应用于实际任务的卷积网络。

2026-03-30

立即查看

专题

#Grok

Grok脚本资源网站，提供G

+ 收藏

#Sora2

Sora2脚本资源网站，提供S

+ 收藏

#通义万相

通义万相脚本资源网站，提供通

+ 收藏

#海螺AI

海螺AI脚本资源网站，提供海

+ 收藏

#可灵AI

可灵AI脚本资源网站，提供可

+ 收藏

#Kling3.0

Kling3.0脚本资源网站，提

+ 收藏

最新数据

南京大学提出基于区域感知的RAG-Diffusion文本图像生成技术南京大学团队提出的RAG-Di

悦灵犀AI多模态AI创作平台基于StableDiffusion多模态模型

OneDiffusion开源扩散模型实现双向图像合成与理解无缝支持

DiffusionBee-用AI将文本描述或草图转化为艺术作品

Sora2教程玩法大全及20个爆款视频提示词

PixelStudio由谷歌打造的AI图像生成工具

ChatPlaygroundAI-多语言多AI互动聊天机器人平台

LongCite由清华研发的开源模型助力LLMs实现精准引用有效降低幻觉

15款AI智能体与开发平台无需代码轻松打造AI应用

谷歌Illuminate项目实现学术论文音频化讨论

SkyBot由Skywork研发的云电脑AI助手

03/30

AI Agent 智能体 - Multi-Agent 架构入门

03/30

Nano Banana 2 国内使用指南 LiblibAI 无需翻墙教程

03/30

一文搞懂卷积神经网络经典架构-LeNet

03/30

一文搞懂深度学习中的池化！

03/30

厦门大学DeepSeek大模型助力高校企业政府发展 PDF文件 AI教程资料

03/30

RAG 不一定非得靠向量库：一套更偏工程落地的“结构化推理检索”方案

03/30

北京大学DeepSeek与AIGC应用PDF AI教程资料

03/30

开源项目 superpowers 深度解读：把 AI Coding Agent 变成遵守工程流程的协作伙伴

03/30

金灵AI深度体验报告 CSDN推出金融投研AI智能助手

03/30

AI精选

AI Agent 智能体 - Mu

RAG 不一定非得靠向量库：一

精选

一文搞懂深度学习中的池化！

精选

一文搞懂卷积神经网络经典架构-LeNet

精选

告别 Vibe Coding：用 SDD 让 AI 编程提效 50%，三工具实战对比

精选

Agent 语音交互如何更稳、更快？一次高并发消息链路优化实践

精选

# AI 终于能"干活"了——Function Calling 完全指南

精选

GSD 使用指南：高效交付功能的结构化工作流

精选

刚刚！Claude最强大模型泄露，Anthropic紧急封锁

精选

开源项目 superpowers 深度解读：把 AI Coding Agent 变成遵守工程流程的协作伙伴

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区