IndexCache-清华智谱联合发布稀疏注意力加速方案

作者:互联网

2026-03-23

AI模型库

IndexCache作为稀疏注意力加速技术,通过跨层复用索引大幅提升计算效率,为长文本处理带来突破性优化。其创新设计在保持模型性能的同时显著降低计算开销。

IndexCache是什么

清华大学与智谱团队研发的IndexCache技术,专注于优化DeepSeek稀疏注意力(DSA)中的索引器计算问题。该技术通过分析发现相邻层top-k token选择存在70%-100%的重叠率,创造性地采用分层策略:全量层负责计算并缓存索引,共享层直接复用缓存。实验数据显示,这种方法可减少75%的索引器计算量,在200K上下文场景下实现预填充1.82倍、解码1.48倍的加速效果,且基本不影响模型质量。该技术已在30B参数模型和744B参数的GLM-5上获得验证。

IndexCache的主要功能

  1. 实现跨层索引复用:利用相邻层top-k索引高度重叠的特性,共享层直接使用全量层缓存的索引,避免重复计算。
  2. 显著降低计算开销:能够去除四分之三的索引器计算,仅保留少量索引器即可维持模型性能。
  3. 提升推理速度:在200K上下文环境下,预填充和解码分别获得1.82倍和1.48倍的加速效果。
  4. 零额外内存消耗:通过条件分支实现复用机制,无需增加GPU显存占用。
  5. 提供两种部署方案:无训练方案通过贪心搜索确定最佳层模式,训练感知方案则采用多层蒸馏损失优化参数。
  6. 经过生产验证:已在30B参数模型和744B参数的GLM-5上测试有效,兼容SGLang和vLLM推理框架。

IndexCache的技术原理

  1. 发现跨层索引相似性:研究团队通过热力图分析证实,DSA模型相邻层的top-k token集合具有70%-100%的重叠率,表明存在大量冗余计算。
  2. 建立分层机制:将模型层划分为全量层和共享层,前者计算并缓存索引,后者直接复用缓存结果。
  3. 动态选择策略:针对已训练模型使用贪心搜索算法确定最佳层模式;针对新训练模型则引入多层蒸馏损失优化。
  4. 优化推理流程:通过简单的条件判断实现索引复用,无需修改模型架构或增加额外存储空间。

IndexCache的关键信息和使用要求

  1. 研发背景:针对DSA在长上下文场景下的计算瓶颈,200K token时索引器占用81%的预填充时间。
  2. 核心原理:基于相邻层top-k索引的高重叠率,通过跨层复用减少冗余计算。
  3. 加速效果:保留25%索引器即可实现显著加速,部分推理任务性能甚至有所提升。
  4. 验证情况:在30B参数DSA模型和744B参数GLM-5上均验证有效。
  5. 硬件需求:需要NVIDIA GPU但不增加显存占用,复用标准DSA内存空间。
  6. 软件支持:兼容SGLang和vLLM框架,提供现成补丁适用于主流模型。
  7. 部署方案:无训练方案需准备校准数据运行贪心搜索确定最优配置。

IndexCache的核心优势

  1. 显著提升速度:200K上下文下预填充和解码分别获得1.82倍和1.48倍加速。
  2. 保持模型质量:去除75%索引器计算后,性能几乎无损甚至有所提升。
  3. 无额外资源消耗:仅通过条件分支实现复用,不增加GPU显存需求。
  4. 即插即用:提供现成补丁,无需修改模型架构即可应用于主流模型。
  5. 灵活适配:支持已训练模型和从头训练场景,索引器保留比例可调。
  6. 规模验证:已在744B参数的GLM-5大模型上证实其有效性。

IndexCache的项目地址

  1. GitHub仓库:https://github.com/THUDM/IndexCache
  2. 技术论文:https://arxiv.org/pdf/2603.12201

IndexCache的同类竞品对比

对比维度 IndexCache 原生 DSA Full Attention Anchor 方法
核心机制 跨层复用索引器输出的 top-k 索引 每层独立运行轻量级索引器 依赖全注意力锚点层复用索引
计算开销 去除 75% 索引器,预填充加速 1.82 倍 200K 上下文下索引器占 81% 预填充时间 需保留全注意力层,计算成本较高
适用场景 完全消除全注意力的 DSA 架构 标准 DSA 部署 需全注意力作为锚点的架构
实现复杂度 一个 if/else 分支,零额外显存 标准实现 需设计锚点层策略
训练要求 支持无训练部署或训练感知优化 需完整训练 通常需联合训练
生产验证 744B GLM-5 验证 DeepSeek-V3 生产应用 多为中小规模实验

IndexCache的应用场景

  1. 长文本处理:适用于论文阅读、法律合同分析等场景,显著提升200K上下文下的处理速度。
  2. 复杂推理任务:加速数学证明、代码生成等多步推理过程,解码速度提升1.48倍。
  3. 智能体工作流:支持多轮工具调用

相关标签:

AI工具 AI项目和工具