无 Embedding、无向量数据库的 RAG 方法：PageIndex 技术解析-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

无 Embedding、无向量数据库的 RAG 方法：PageIndex 技术解析

作者：互联网

2026-04-15

AI快讯

PageIndex 是一种无向量、基于推理的检索增强生成（RAG）方法，无需 Embedding、分块或向量数据库即可从长文档中检索答案。

它不依赖语义相似度搜索，而是从文档中构建一棵层次化的目录树（TOC），再由大语言模型对该结构进行推理。模型先借助文档的层级结构定位最相关的章节，然后导航至该章节，生成精确且带引用的答案。

传统 RAG 通过相似度进行检索。PageIndex 通过对结构的推理进行检索。

财务报告、法律合同、监管文件、政策文档、学术论文这种结构清晰的长文档都是它的优势领域。

多数 RAG 系统依赖 Embedding 和向量数据库：把文档拆成块，转成向量，用余弦相似度找答案。但相似度不是推理。PageIndex 采用了另一个方法，通过文档结构的推理而非语义搜索来检索信息。文档不再是一堆扁平文本，而是一个带层级的结构体系，类似于一本附有目录的教科书。

下面用经典电影《Sholay》来演示其工作原理。

核心思想：先理解结构，再进行搜索

把《Sholay》的剧本或详细剧情概要输入 PageIndex，它不会将文档拆分为任意的 500 词分块，而是构建故事的结构树：

 Document → Hierarchical Index → Reasoning-Based Retrieval → Answer

传统路径则是：

 Document → Chunks → Embeddings → Vector DB → Similarity Search → Answer

阶段一：创建树结构（索引阶段）

第一阶段完成结构化索引，分为两步。

1、结构检测

LLM 读取剧本，检测自然边界：场景标题（"SCENE 1 — THE TRAIN ROBBERY"）、角色介绍、幕次分隔、重要叙事转折。它依赖的是叙事结构，而非固定的分块大小。

深色根节点 → 代表完整文档
蓝色 → 主要故事段落
红色 → Gabbar 相关故事线
紫色 → 关键事件节点
金色 → 具体事实事件

2、层次化映射

PageIndex 构建一棵树。根节点是 Sholay，第一级分支可能包括：序幕、招募 Veeru 和 Jai、Ramgarh 的生活、Gabbar 的恐怖统治、最终决战。每个分支还可以包含子节点。

以 Gabbar's Den 为例，其摘要为："本节涵盖 Gabbar Singh 的出场介绍、'Kitne aadmi the'台词以及对手下的惩罚。"

每个节点包含：

title
nodeId
summary
child nodes

关键在于LLM 为每个节点写一段简洁的语义描述的摘要说明该章节发生了什么，这段摘要在后续查询阶段将充当检索信号。

阶段二：查询阶段

假设用户提问：

为什么 Thakur 失去了双臂？

完整剧本不会被整体发送，不会生成 Embedding，也不会执行向量相似度搜索。LLM 接收到的只有三样东西：用户的问题、层次化映射（JSON 树）、每个节点的摘要。不是完整剧本，只有结构。

LLM 如何找到答案（推理，而非数学计算）

步骤 1：结构搜索

LLM 读取这棵树，看到"Thakur 家族的屠杀""Gabbar 的复仇""Ramgarh 的生活"等节点。根据摘要进行推理：答案很可能存在于涉及 Gabbar 和 Thakur 受伤的章节中。这是逻辑推理，不是向量相似度计算。

步骤 2：深入探索

PageIndex 随后仅检索这些特定节点对应的原始文本。不扫描 50 页内容，只取回 2-3 个聚焦章节。

步骤 3：最终回答

LLM 读取这段高度相关的文本片段，给出回答：

Thakur 失去双臂是因为 Gabbar Singh 为报复 Thakur 多年前的逮捕行为而将其双臂砍断。

同时附上引用：

 (nodeId: massacre-thakur-family)

检索过程可解释、可追溯。

PageIndex 与传统 RAG 的差异（针对结构化文档）

传统向量 RAG 系统中，搜索"Thakur 的手臂"可能返回：Jai 和 Veeru 打斗中使用手臂的场景、包含相似词汇的对话，以及"手"或"受伤"的无关提及。向量搜索按语义接近度检索，不考虑叙事相关性——本质上是在做"氛围匹配"。

PageIndex 不存在这个问题。屠杀场景的摘要已经明确写道：

"本节描述了 Gabbar 如何攻击 Thakur 的家族并砍断了他的双臂。"

LLM 不是在猜测，而是在导航。

PageIndex 有效的原因

它将两个认知任务分开处理：导航，确定答案应该存在的位置；提取，仅阅读该章节并生成答案。

这与人类的阅读方式相同。想知道小说中某件事为何发生，不会随机翻阅每一页，而是直接翻到相关事件所在的章节，PageIndex 让 LLM 遵循同样的行为模式。

适用场景

这种架构在以下场景中表现突出：财务报告、法律文档、政策文件、监管备案、学术研究、长篇叙事内容。凡是结构重要性超过表面相似度的场合，都是它的用武之地。

总结

传统 RAG 的假设：相关性等于语义相似度。PageIndex 的假设：相关性等于结构化推理。

差异看似微小，在长篇层次化文档中却影响深远。PageIndex 没有去造一个更好的搜索引擎，而是画了一张导航地图，让 LLM 先思考，再阅读。

https://avoid.overfit.cn/post/5a974d0889904edeb9cdca7945e132be

by Vishal Mysore

相关推荐

【新手零难度操作】OpenClaw 2.6.4 安装误区规避与快速使用指南（包含最新版安装包） OpenClaw（小龙虾）是开源本地AI智能体工具，支持Windows一键部署（5分钟搞定），无需代码与复杂配置。具备本地运行、数据安全、零门槛操作、开箱即用等优势，可自动完成文件整理、数据提取、浏览器操控等办公自动化任务。

2026-04-18

立即查看

Qwen3.6 正式发布！阿里云百炼同步开启“AI大模型节省计划”超值优惠阿里云发布千问Qwen3.6系列大模型，大模型官网：https://t.aliyun.com/U/JbblVp 实现编程、智能体（Agent）及多模态能力的范式跃迁：代码生成与调试更精准，原生支持LangChain等框架，工具调用更稳定，图文识别与推理全面升级。Qwen3.6-Flash轻量高效，开发体验优化。同步推出百炼「全模型通享」限时特惠，新客首月立减最高500元。

2026-04-18

立即查看

办公 AI 工具 OpenClaw 部署 Windows 系统一站式教程 OpenClaw（小龙虾）是开源本地AI智能体，无需编程、不联网、纯本地运行，3分钟一键部署。支持文件整理、表格生成、浏览器自动化等办公任务，兼顾隐私安全与零门槛易用性，专为Windows用户优化。

2026-04-18

立即查看

OpenClaw 2.6.4 可视化部署打造个人 AI 数字员工（包含最新版安装包）本教程详解Windows一键部署OpenClaw 2.6.4（本地AI智能体），5分钟完成安装，无需编程与环境配置。支持自然语言操控电脑、自动化办公、文件处理等，数据全本地运行，保障隐私安全。

2026-04-18

立即查看

专题

#数据可视化

数据可视化（Data Visu

+ 收藏

#自然语言处理

自然语言处理（Natural

+ 收藏

#Excel公式

Excel公式就是：用函数 +

+ 收藏

#Excel技巧

Excel是日常生活中必不可

+ 收藏

#蛋仔派对

蛋仔派对最新官方活动、关卡速

+ 收藏

#人工智能

人工智能（AI），简单说，就

+ 收藏

最新数据

OpenClaw Windows 10/11 部署避坑指南：核心报错速解+零基础落地 OpenClaw（“小龙虾”

OpenClaw Windows 10/11 部署实战指南：核心报错速解+零基础落地实操

Hermes Agent是什么、能做什么？Hermes Agent部署保姆级图文教程

OpenClaw Windows 10/11 部署全攻略：报错排查与高效上手

Win10/11 飞书联动 OpenClaw 远程办公自动化搭建教程

MiniMax修改开源授权被骂疯了！限制M2.7商用、强制标注来源，却没完全撤下MIT标识

一键破解技能孤岛：企业级Agent技能共享与沉淀实战

阿里云1分钟部署OpenClaw、接入大模型、集成Slack教程

OpenClaw 飞书机器人极速对接｜无需复杂配置，聊天发 AI 指令

阿里云大模型服务平台百炼新人免费额度如何申请？申请与使用免费额度教程及常见问题解答

04/18

办公 AI 工具 OpenClaw 部署 Windows 系统一站式教程

04/18

Qwen3.6 正式发布！阿里云百炼同步开启“AI大模型节省计划”超值优惠

04/18

【新手零难度操作】OpenClaw 2.6.4 安装误区规避与快速使用指南（包含最新版安装包）

04/18

OpenClaw 2.6.4 可视化部署打造个人 AI 数字员工（包含最新版安装包）

04/18

【小白友好！】OpenClaw 2.6.4 本地 AI 智能体快速搭建教程（内有安装包）

04/18

零基础部署 OpenClaw v2.6.2，Windows 系统完整教程

04/18

【适合新手的】零基础部署 OpenClaw 自动化工具教程

04/18

开发者们的第一台自主进化的“爱马仕”来了

04/18

极简部署 OpenClaw 2.6.2 本地 AI 智能体快速启用（含最新版安装包）

04/18

AI精选

电影哥特式火水社论

本能电影剧照

夜桥上的电影三联画肖像

黄金时段海岸生活方式照片

高速摄影：亚洲汤品爆裂瞬间

玻璃马雕像变形动画（视频提示）

秋叶超现实主义鹿

90 年代复古闪光摄影肖像

Sydney Sweeney《蜘蛛夫人》首映礼礼服描述

精选

女性在床上听音乐的私密生活照

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区