IndexCache-清华智谱联合发布稀疏注意力加速方案-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

IndexCache-清华智谱联合发布稀疏注意力加速方案

作者：互联网

2026-03-23

AI模型库

IndexCache作为稀疏注意力加速技术，通过跨层复用索引大幅提升计算效率，为长文本处理带来突破性优化。其创新设计在保持模型性能的同时显著降低计算开销。

IndexCache是什么

清华大学与智谱团队研发的IndexCache技术，专注于优化DeepSeek稀疏注意力(DSA)中的索引器计算问题。该技术通过分析发现相邻层top-k token选择存在70%-100%的重叠率，创造性地采用分层策略：全量层负责计算并缓存索引，共享层直接复用缓存。实验数据显示，这种方法可减少75%的索引器计算量，在200K上下文场景下实现预填充1.82倍、解码1.48倍的加速效果，且基本不影响模型质量。该技术已在30B参数模型和744B参数的GLM-5上获得验证。

IndexCache的主要功能

实现跨层索引复用：利用相邻层top-k索引高度重叠的特性，共享层直接使用全量层缓存的索引，避免重复计算。
显著降低计算开销：能够去除四分之三的索引器计算，仅保留少量索引器即可维持模型性能。
提升推理速度：在200K上下文环境下，预填充和解码分别获得1.82倍和1.48倍的加速效果。
零额外内存消耗：通过条件分支实现复用机制，无需增加GPU显存占用。
提供两种部署方案：无训练方案通过贪心搜索确定最佳层模式，训练感知方案则采用多层蒸馏损失优化参数。
经过生产验证：已在30B参数模型和744B参数的GLM-5上测试有效，兼容SGLang和vLLM推理框架。

IndexCache的技术原理

发现跨层索引相似性：研究团队通过热力图分析证实，DSA模型相邻层的top-k token集合具有70%-100%的重叠率，表明存在大量冗余计算。
建立分层机制：将模型层划分为全量层和共享层，前者计算并缓存索引，后者直接复用缓存结果。
动态选择策略：针对已训练模型使用贪心搜索算法确定最佳层模式；针对新训练模型则引入多层蒸馏损失优化。
优化推理流程：通过简单的条件判断实现索引复用，无需修改模型架构或增加额外存储空间。

IndexCache的关键信息和使用要求

研发背景：针对DSA在长上下文场景下的计算瓶颈，200K token时索引器占用81%的预填充时间。
核心原理：基于相邻层top-k索引的高重叠率，通过跨层复用减少冗余计算。
加速效果：保留25%索引器即可实现显著加速，部分推理任务性能甚至有所提升。
验证情况：在30B参数DSA模型和744B参数GLM-5上均验证有效。
硬件需求：需要NVIDIA GPU但不增加显存占用，复用标准DSA内存空间。
软件支持：兼容SGLang和vLLM框架，提供现成补丁适用于主流模型。
部署方案：无训练方案需准备校准数据运行贪心搜索确定最优配置。

IndexCache的核心优势

显著提升速度：200K上下文下预填充和解码分别获得1.82倍和1.48倍加速。
保持模型质量：去除75%索引器计算后，性能几乎无损甚至有所提升。
无额外资源消耗：仅通过条件分支实现复用，不增加GPU显存需求。
即插即用：提供现成补丁，无需修改模型架构即可应用于主流模型。
灵活适配：支持已训练模型和从头训练场景，索引器保留比例可调。
规模验证：已在744B参数的GLM-5大模型上证实其有效性。

IndexCache的项目地址

GitHub仓库：https://github.com/THUDM/IndexCache
技术论文：https://arxiv.org/pdf/2603.12201

IndexCache的同类竞品对比

对比维度	IndexCache	原生 DSA	Full Attention Anchor 方法
核心机制	跨层复用索引器输出的 top-k 索引	每层独立运行轻量级索引器	依赖全注意力锚点层复用索引
计算开销	去除 75% 索引器，预填充加速 1.82 倍	200K 上下文下索引器占 81% 预填充时间	需保留全注意力层，计算成本较高
适用场景	完全消除全注意力的 DSA 架构	标准 DSA 部署	需全注意力作为锚点的架构
实现复杂度	一个 if/else 分支，零额外显存	标准实现	需设计锚点层策略
训练要求	支持无训练部署或训练感知优化	需完整训练	通常需联合训练
生产验证	744B GLM-5 验证	DeepSeek-V3 生产应用	多为中小规模实验