IndexCache-清华智谱联合发布稀疏注意力加速方案
作者:互联网
2026-03-23
IndexCache作为稀疏注意力加速技术,通过跨层复用索引大幅提升计算效率,为长文本处理带来突破性优化。其创新设计在保持模型性能的同时显著降低计算开销。
IndexCache是什么
清华大学与智谱团队研发的IndexCache技术,专注于优化DeepSeek稀疏注意力(DSA)中的索引器计算问题。该技术通过分析发现相邻层top-k token选择存在70%-100%的重叠率,创造性地采用分层策略:全量层负责计算并缓存索引,共享层直接复用缓存。实验数据显示,这种方法可减少75%的索引器计算量,在200K上下文场景下实现预填充1.82倍、解码1.48倍的加速效果,且基本不影响模型质量。该技术已在30B参数模型和744B参数的GLM-5上获得验证。

IndexCache的主要功能
- 实现跨层索引复用:利用相邻层top-k索引高度重叠的特性,共享层直接使用全量层缓存的索引,避免重复计算。
- 显著降低计算开销:能够去除四分之三的索引器计算,仅保留少量索引器即可维持模型性能。
- 提升推理速度:在200K上下文环境下,预填充和解码分别获得1.82倍和1.48倍的加速效果。
- 零额外内存消耗:通过条件分支实现复用机制,无需增加GPU显存占用。
- 提供两种部署方案:无训练方案通过贪心搜索确定最佳层模式,训练感知方案则采用多层蒸馏损失优化参数。
- 经过生产验证:已在30B参数模型和744B参数的GLM-5上测试有效,兼容SGLang和vLLM推理框架。
IndexCache的技术原理
- 发现跨层索引相似性:研究团队通过热力图分析证实,DSA模型相邻层的top-k token集合具有70%-100%的重叠率,表明存在大量冗余计算。
- 建立分层机制:将模型层划分为全量层和共享层,前者计算并缓存索引,后者直接复用缓存结果。
- 动态选择策略:针对已训练模型使用贪心搜索算法确定最佳层模式;针对新训练模型则引入多层蒸馏损失优化。
- 优化推理流程:通过简单的条件判断实现索引复用,无需修改模型架构或增加额外存储空间。
IndexCache的关键信息和使用要求
- 研发背景:针对DSA在长上下文场景下的计算瓶颈,200K token时索引器占用81%的预填充时间。
- 核心原理:基于相邻层top-k索引的高重叠率,通过跨层复用减少冗余计算。
- 加速效果:保留25%索引器即可实现显著加速,部分推理任务性能甚至有所提升。
- 验证情况:在30B参数DSA模型和744B参数GLM-5上均验证有效。
- 硬件需求:需要NVIDIA GPU但不增加显存占用,复用标准DSA内存空间。
- 软件支持:兼容SGLang和vLLM框架,提供现成补丁适用于主流模型。
- 部署方案:无训练方案需准备校准数据运行贪心搜索确定最优配置。
IndexCache的核心优势
- 显著提升速度:200K上下文下预填充和解码分别获得1.82倍和1.48倍加速。
- 保持模型质量:去除75%索引器计算后,性能几乎无损甚至有所提升。
- 无额外资源消耗:仅通过条件分支实现复用,不增加GPU显存需求。
- 即插即用:提供现成补丁,无需修改模型架构即可应用于主流模型。
- 灵活适配:支持已训练模型和从头训练场景,索引器保留比例可调。
- 规模验证:已在744B参数的GLM-5大模型上证实其有效性。
IndexCache的项目地址
- GitHub仓库:https://github.com/THUDM/IndexCache
- 技术论文:https://arxiv.org/pdf/2603.12201
IndexCache的同类竞品对比
| 对比维度 | IndexCache | 原生 DSA | Full Attention Anchor 方法 |
|---|---|---|---|
| 核心机制 | 跨层复用索引器输出的 top-k 索引 | 每层独立运行轻量级索引器 | 依赖全注意力锚点层复用索引 |
| 计算开销 | 去除 75% 索引器,预填充加速 1.82 倍 | 200K 上下文下索引器占 81% 预填充时间 | 需保留全注意力层,计算成本较高 |
| 适用场景 | 完全消除全注意力的 DSA 架构 | 标准 DSA 部署 | 需全注意力作为锚点的架构 |
| 实现复杂度 | 一个 if/else 分支,零额外显存 | 标准实现 | 需设计锚点层策略 |
| 训练要求 | 支持无训练部署或训练感知优化 | 需完整训练 | 通常需联合训练 |
| 生产验证 | 744B GLM-5 验证 | DeepSeek-V3 生产应用 | 多为中小规模实验 |
IndexCache的应用场景
- 长文本处理:适用于论文阅读、法律合同分析等场景,显著提升200K上下文下的处理速度。
- 复杂推理任务:加速数学证明、代码生成等多步推理过程,解码速度提升1.48倍。
- 智能体工作流:支持多轮工具调用
相关标签:
AI工具
AI项目和工具
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
NanoClaw 开源轻量级个人AI助手 安全可靠的OpenClaw替代方案
03/30
MonsterClaw 采用 OpenClaw 技术打造的本地化AI运行平台
03/30
TinyClaw 由TinyAGI推出的开源轻量级多智能体协作框架
03/30
携程酒店业务借助NebulaGraph实现月均风控止损逾百万元
03/30
稀宇科技开源MiniMax Office Skills生产级办公文档引擎
03/27
ToClaw由ToDesk打造的专业定制AI智能体
03/26
TypeNo 免费开源的中文AI语音输入法 无需配置直接使用
03/26
Sub2API 开源人工智能API中转网关平台 具备多账户管理功能
03/26
阿里通义推出视频生成音频框架PrismAudio
03/26
Luma AI发布Uni-1模型实现图像理解与生成一体化
03/25
AI精选
