把RAG融入模型，开源MSA记住1亿Token实现永久记忆-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

把RAG融入模型，开源MSA记住1亿Token实现永久记忆

作者：互联网

2026-04-15

AI快讯

人类大脑能存储约2-3亿token的终身记忆，但现有大模型却被困在128K-1M token的牢笼里。论文指出，当前三大技术路线各有硬伤：

参数记忆（如LoRA）：容量受限，容易"灾难性遗忘"外部存储（如RAG）：检索与生成分离，精度天花板低线性注意力（如RWKV）：固定状态压缩，长文本精度暴跌

MSA瞄准的正是这个空白地带：既要端到端可训练，又要能无损扩展到人类级别的记忆容量。

方案亮点

1. 核心架构设计

MSA的核心是文档级稀疏注意力机制。工作原理很巧妙：

将海量文档库切分为固定长度的块通过专门的Router Projector生成路由键值，计算查询与文档块的相关性分数只选取Top-k最相关的文档参与注意力计算其余文档的KV缓存保持压缩状态，大幅降低计算开销

2. 文档级RoPE：破解位置编码困局

传统全局位置编码在长文本场景会"位置漂移"——训练时见过的位置少，推理时位置ID暴增导致性能崩盘。

MSA的解决方案是Parallel RoPE：每个文档独立编号（都从0开始），查询部分则用Global RoPE承接。这样模型在64K上下文上训练，却能无损外推到1亿token。

3. Memory Interleave：多跳推理神器

复杂问题往往需要跨文档找线索。MSA的记忆交错机制让模型能迭代检索：

第一轮：根据问题检索相关文档ID将检索到的内容追加到查询中第二轮：基于更新后的查询继续检索直到模型判断证据充足，才输出最终答案

实验结果

双卡跑1亿token

论文展示了惊人的工程优化：

Memory Parallel策略：

路由键（Router Keys）常驻GPU显存（约56GB）内容KV缓存放在CPU内存（约113GB）检索时多卡并行打分，只把选中的文档KV异步加载到GPU

最终效果：2张A800显卡就能处理1亿token的推理，KV缓存压缩后存储需求降低64倍。

精度几乎不掉线

在MS MARCO长文本问答基准上，MSA-4B展现出恐怖的稳定性：

从16K到1亿token，性能衰减不到9%对比之下，Qwen3-4B在512K就暴跌到1.2分，GPT-4.1在1M token后也开始下滑在"大海捞针"（NIAH）测试中达到SOTA

更关键的是，MSA不需要RAG那套复杂的召回策略和超参数调优，端到端训练让检索和生成真正统一。

MSA的价值在于解耦了记忆容量与推理能力——用稀疏注意力处理海量记忆，用标准Transformer做精密的逐步推理。

对于需要终身记忆的应用场景（数字孪生、长篇小说理解、多智能体长期协作），这可能就是从"玩具Demo"到"可用产品"的关键一跃。

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
https://arxiv.org/pdf/2603.23516
https://github.com/EverMind-AI/MSA

PaperAgent开源社区上线了（持续更新）：
https://docs.qq.com/aio/DUFpMUmNNamZQS3VH

本文转载自PaperAGI 作者：Paper小AI