Tommy

RAG技术全景与流派分析

The RAG Landscape — From Retrieval-Augmented Generation to Context Engineering

· 22 min read
···阅读reads

摘要

自2020年Lewis等人正式提出RAG(Retrieval-Augmented Generation,检索增强生成)至今,特别是2022年末ChatGPT引爆LLM大模型浪潮以后,RAG从一项学术上的”非参数化记忆”补充技术,迅速演变为企业级AI落地的事实标准基础设施。2024年被业内称为”RAG之年”,2025年则在”长上下文是否会取代RAG”的争论中完成了从”可用”到”可控、可观测、可工程化”的产业化跨越。截至2026年初,RAG正经历从”检索增强生成”这一具体模式,向以”智能检索”为核心能力的”上下文引擎(Context Engine)“的整体性蜕变。

本文系统梳理RAG的演进脉络(朴素RAG—高级RAG—模块化RAG—GraphRAG—Agentic RAG—Context Engineering),对当前的几大主流流派进行系统对比,并针对个人事务助理、老人陪伴、公司项目管理、企业客服等典型场景,给出差异化的架构选型与落地建议。

一、RAG的源起与发展脉络

1.1 起源:从开放域问答到非参数化记忆(2017—2020)

RAG的思想根基可追溯至开放域问答(Open-Domain QA)的早期工作。2017年DrQA等”检索+阅读”管道证明:将外部文档作为知识源、用神经网络阅读理解,可在维基百科尺度的语料上做问答。这条线索在2020年迎来两个里程碑——REALM将一个可微分的检索器嵌入到语言模型预训练中,使模型在掩码预测时可以”主动调阅”外部证据;同年,Facebook AI的Lewis等人正式提出”Retrieval-Augmented Generation”框架,使用BART作生成器、DPR(Dense Passage Retrieval)作检索器,将参数化记忆(模型权重)与非参数化记忆(外部向量索引)系统化地结合。

此时RAG还是一项相对小众的学术议题,使用对象是BERT/BART规模的模型,所解决的问题是开放域QA的事实正确性与可更新性。

1.2 引爆:LLM时代的”刚需补丁”(2022底—2023)

2022年11月ChatGPT问世,迅速暴露了大模型在企业落地中的”四宗罪”:知识截止、私域无知、幻觉严重、不可追溯。在这一背景下,RAG从学术名词被工程界重新发掘,成为最直接的”补丁”——无需昂贵的fine-tuning,只要把企业知识切片入库、查询时检索拼接到prompt中,就能让模型回答自己原本不知道的事情,且答案可引用、可审计。

值得一提的是,“RAG”这个名词在2023年初并未广泛流行,业界更多使用”外部记忆""外部知识库""长期记忆”等临时叫法。直到LangChain、LlamaIndex等开源框架将”loader → splitter → embedding → vector store → retriever → prompt → LLM”这一整套管线标准化,“RAG”才真正成为通用术语。

1.3 “RAG之年”:技术分层与首次系统化(2024)

2024年是RAG真正意义上的爆发年。这一年发生了几件标志性事件:第一,Naïve RAG暴露的问题(chunking粗糙、向量召回精度不足、幻觉、上下文丢失等)使Hybrid Search + Rerank成为生产环境的事实底线。第二,Microsoft开源GraphRAG,将”知识图谱”重新拉回到检索增强的主舞台,解决了Naïve RAG在跨文档、全局摘要类问题上的结构性缺陷。第三,Anthropic提出Contextual Retrieval,通过为每个chunk生成上下文增强后再做嵌入,召回准确率显著提升。第四,Self-RAG、CRAG(Corrective RAG)、Adaptive RAG等”自反思”型方法相继出现,让模型自己判断”要不要检索、检索几次、检索得够不够好”。第五,评测从”看Demo”走向系统化——Ragas、ARES、ARAGOG、TREC 2024 RAG Track等基准把RAG拉入了可比较、可复现的工程学科。

到2024年底,业内基本形成共识:RAG不是单一算法,而是一整条由”索引—召回—重排—生成—评测—反馈”组成的工程管线,其架构层次可清晰划分为Naïve RAG、Advanced RAG、Modular RAG三层。

1.4 Agent化与图化:流派分化(2025)

2025年,RAG领域的故事线变得复杂。一方面,长上下文模型(如Gemini 1.5的1M窗口、Claude的200K+窗口、GPT-4 Turbo 128K)的成熟,引发了”长上下文是否会取代RAG”的激烈辩论。实测结果是:在延迟、成本不敏感、查询模式相对固定的场景(如合同审阅、固定格式报告分析)中,长上下文确实可以绕开RAG的召回噪声;但在大规模企业知识库(TB级)、多用户并发、强权限隔离场景下,RAG仍是经济上、工程上不可替代的方案。

另一方面,Agentic RAG成为2025年的关键词。传统RAG是”一次检索—一次生成”的固定管线,而Agentic RAG让LLM作为决策核心,主动判断查询复杂度、自主选择检索工具、必要时多轮迭代检索与自我纠错。LangGraph、LlamaIndex Agent、DSPy等框架的成熟,让这一模式从论文走向了生产。同时,GraphRAG在2025年也持续演化——Microsoft发布的LazyGraphRAG将索引成本降低到原版的0.1%,使大规模语料上的GraphRAG变得经济可行。

到2025年底,业内主流观点是:单一RAG架构正在解体,取而代之的是”自适应RAG”——由一个query classifier决定每条查询走哪条管线:简单事实走Naïve/Advanced RAG,关系查询走GraphRAG,复杂多跳推理走Agentic RAG。

1.5 上下文工程:RAG的下一站(2026)

RAGFlow在2025年末提出的”From RAG to Context”观点,代表了一个更宏观的视角:RAG正在从一个具体技术,演化为”上下文引擎(Context Engine)“——为Agent提供”恰当的知识 + 恰当的工具描述 + 恰当的历史记忆 + 恰当的用户画像”的统一基础设施。在MCP(Model Context Protocol)大规模铺开后,企业内可被调用的工具/API常常有数百上千个,“工具选择”本身就是一个检索问题。RAG的内核——“在巨量上下文候选中找到此刻最该呈现给模型的那一小撮”——天然适合扩展到这个更广的语境。

因此2026年的RAG并不是”被取代”,而是”被泛化”:它不再仅仅是”为生成提供知识”,而是”为智能体提供恰当的上下文”。

表1.1 RAG演进里程碑

阶段时间代表性技术 / 事件核心特征
开放域QA前史2017—2019DrQA、ORQA、BERT-QA检索+阅读两阶段,主要是分类/抽取式
RAG提出2020REALM、Lewis RAG、DPR可微分检索 + 生成式模型,确立”参数+非参数”双记忆
工程化萌芽2023LangChain、LlamaIndex崛起Naïve RAG标准化:切片→嵌入→检索→拼接
RAG之年2024GraphRAG、Contextual Retrieval、Self-RAG、Ragas分层为Naïve/Advanced/Modular;评测体系成型
流派分化2025Agentic RAG、LazyGraphRAG、Adaptive RAGAgent化决策;图化推理;自适应路由
上下文工程2026—Context Engine、MCP工具检索RAG泛化为Agent的上下文供给基础设施

二、RAG的核心组件与基础架构

不论流派如何分化,所有RAG系统在底层都共享同一个流程骨架。理解这个骨架,是讨论上层流派差异的基础。

2.1 离线索引(Indexing)

2.2 在线检索(Retrieval)

2.3 生成与后处理(Generation)

三、当前RAG的几大主流流派

以下六大流派并非互斥,而是在不同复杂度、成本与场景下的最佳实践。一个成熟的企业RAG系统,往往是几种流派的组合而非择一。

3.1 Naïve RAG(朴素RAG)

定位:最早、最简单的RAG实现,“Retrieve → Stuff → Generate”三步走。

典型流程:Query → Embedding → Top-K向量检索 → 拼接到prompt → LLM输出。

优点:实现成本极低,几小时即可起一个PoC;技术栈成熟(任何向量库 + LangChain/LlamaIndex的入门示例都能跑);对简单事实型问答效果尚可。

局限:在生产环境中失败率高达40%。常见问题:召回精度不足(专有名词漂移)、切片丢上下文、缺乏权限控制、无法回答”全局/跨文档”类问题、对复杂多跳推理无能为力、幻觉难以追溯。

适用场景:个人知识库、内部文档PoC、低风险的FAQ机器人。不建议作为面向客户/合规要求高的生产系统。

3.2 Advanced RAG(增强型RAG)

定位:对Naïve RAG的”全链路增强”,在每个环节叠加优化模块。

关键增强

适用场景:绝大多数企业落地的”主力架构”。包括客服、知识库问答、内部搜索、合规检查等典型场景的合理起点。性价比最高、可维护性最强。

3.3 Modular RAG(模块化RAG)

定位:把RAG拆解为可替换、可编排的独立模块(Search、Memory、Routing、Predict、Read等),通过DAG或Flow定义任意组合方式。

代表框架:LlamaIndex的Query Engine + Router、Haystack的Pipeline、DSPy的Module + Compiler、RAGFlow的Graph编排。

核心价值:把”算法选型”和”业务流程”解耦——同一套底座可以服务客服、合规、研报等多个业务,只需配置不同模块。便于A/B测试、灰度发布、模型替换。

适用场景:中大型企业的RAG平台层;同时承载多业务、多团队、多场景的统一RAG基础设施。

3.4 GraphRAG(图增强RAG)

定位:不再以”文档切片”为最小单位,而是先用LLM从语料中抽取实体与关系,构建知识图谱,然后通过图遍历 + Community Summary来回答查询。

典型流程:Documents → 实体/关系抽取 → 知识图谱 → 社区检测 → 社区摘要 → 查询时图遍历 + 摘要合成。

关键变体

优势:解决Naïve RAG在”跨文档”、“全局摘要”、“多跳关系”类问题上的结构性缺陷。例:监管合规中跨多份条文的关联分析、医药研发中跨论文的实体关系挖掘、金融反欺诈中跨账户的关系网络。索引比向量索引更稳定——“张三是A项目负责人”这种事实不会因为周报更新而变化。

代价:实体抽取消耗大量LLM调用,初始构建成本高;对实体/关系schema设计依赖较深;不适合简单事实型查询。

适用场景:金融反欺诈、医药研发、法律法规分析、情报分析、企业组织/项目知识网络等”关系即价值”的场景。

3.5 Agentic RAG(智能体RAG)

定位:把LLM从”被动答题者”升级为”主动决策者”——由Agent判断要不要检索、检索什么、调用什么工具、何时停止迭代、何时自我纠错。

核心能力

代表实现:LangGraph、LlamaIndex Agent、AutoGen RAG、Adaptive-RAG(Asai 2024)、CRAG、Self-RAG。

代价:成本和延迟显著上升。一次Naïve RAG查询约$0.001,Hybrid+Rerank约$0.005,Agentic RAG则常常在$0.02—$0.10之间。延迟从亚秒级跳到5—30秒。

适用场景:确实需要多步推理的高价值查询:复杂客服工单诊断、研报撰写、数据分析助手、合规审查。对简单事实型问题用Agentic RAG是纯粹的浪费。

3.6 Adaptive RAG / Context Engine(自适应RAG / 上下文工程)

定位:2025—2026年的”集大成”模式:由一个query classifier根据查询复杂度,把每条请求路由到最合适的RAG管线。

典型路由

更进一步的”Context Engine”视角认为:RAG的内核能力是”在巨量上下文候选中精准选取此刻该呈现的那一小撮”,这一能力可以扩展到知识、工具描述、对话历史、用户画像等所有上下文要素。在MCP普及、单一Agent可调用工具数量动辄上百的今天,“工具检索”本身就是一种RAG。

适用场景:成熟的企业级AI平台。当业务流量足够大、查询模式足够多样时,“一刀切”的RAG架构必然性价比走低,Adaptive路由成为必然。

3.7 六大流派对比矩阵

流派复杂度单次成本延迟最适合的问题不适合的问题
Naïve RAG$0.001<1s简单FAQ、PoC全局/多跳/精确名词
Advanced RAG★★$0.0051-2s企业知识问答、客服复杂跨文档推理
Modular RAG★★★$0.005-0.021-3s平台层、多业务复用—(架构层选择)
GraphRAG★★★★构建昂贵 / 查询中等2-5s关系/全局/多跳实时性强、简单事实
Agentic RAG★★★★$0.02-0.105-30s复杂推理、研报简单事实、成本敏感
Adaptive/Context★★★★★按路由分摊按路由全场景平台小团队、初期项目

四、关键专题:几个需要单独讨论的子方向

4.1 长上下文 vs RAG:互补而非替代

2024—2025年最热的辩论之一。Google研究表明,在资源充足时长上下文(LC)模型在多数任务上略优于RAG;但RAG的成本优势依然显著。Self-Route类工作提出”按需路由”——简单问题用RAG,复杂综合任务用LC,由模型的自反思动态决定。

结论:长上下文不会”杀死”RAG,但会改变RAG的角色——chunking可以更粗(甚至整篇文档作为一个chunk),生成阶段可以塞更多候选,从而显著降低召回噪声敏感度。

4.2 多模态RAG

典型场景:图文混排的产品手册、医疗影像 + 病历文本、PPT/PDF中的图表。技术路线分两派:

4.3 Long-Term Memory(长期记忆)与RAG的关系

LTM和RAG在工程上高度重叠但思想取向不同。RAG通常面向”静态知识库”——文档入库后基本不变;LTM则面向”动态交互记忆”——每次对话都在写入、更新、遗忘。代表方案如MemoryBank、Letta(MemGPT)、Mem0、Charlie Mnemonic等,引入了”重要性评估""遗忘曲线""记忆整合”等机制。

典型实现是把RAG分两层:静态知识层(公司文档/产品资料)+ 个人记忆层(用户偏好、历史对话、待办事项)。两者用不同的索引、不同的更新策略,在查询时合流。

4.4 评测:RAG从”看Demo”走向工程学科

常用框架:Ragas、ARES、TruLens、DeepEval、Phoenix。

核心指标

建议把评测视为RAG项目的”一等公民”——每次切片策略、嵌入模型、Reranker的变更都要在固定测试集上跑回归,把”AI优化”从经验主义升级为可比较的工程实践。

五、典型场景的RAG选型与落地建议

以下针对四类有代表性的场景,给出从架构选型、组件配置到运营建议的差异化方案。原则上:先评估查询复杂度分布、再选型;先跑Advanced RAG打基线、再按瓶颈引入GraphRAG/Agentic等更重方案。

5.1 场景一:个人事务助理

场景画像:个人化、低并发、跨设备、强隐私、含多模态输入(语音、图片、文档)、上下文随时间演化(待办、偏好、记忆)。

推荐架构

特别注意

5.2 场景二:老人陪伴

场景画像:语音为主、对话开放式、情感价值 ≥ 知识价值、用户表达模糊、知识需要绝对安全(医疗/用药/养老政策不容出错)、强家属/照护者协同。

推荐架构

特别注意

5.3 场景三:公司项目管理

场景画像:多项目、多角色(PM/开发/测试/客户)、强关系性(人-项目-任务-文档-需求-缺陷-依赖)、跨工具系统(Jira/Confluence/GitLab/邮件/会议纪要)、强权限隔离。

推荐架构

特别注意

5.4 场景四:企业客服

场景画像:高并发、低延迟要求、可量化ROI(自助率、AHT、CSAT)、需要严格的Guardrail(不能乱承诺、不能涉及竞品)、跨产品线、多语言、有人工坐席接管路径。

推荐架构

特别注意

5.5 场景架构选型速查表

维度个人助理老人陪伴项目管理企业客服
核心流派Advanced + LTMAdvanced + Guardrail + CRAGGraphRAG + Advanced + AgenticModular + Advanced + Adaptive
是否需图谱否(轻度即可)否(关键是Guardrail)强需要弱需要
是否Agent化轻度极轻(避免)中度选择性(复杂工单)
延迟要求<2s<3s(语音)<5s(可异步)<2s(高并发)
首要风险隐私医疗安全 / 情感伤害权限泄露幻觉 / 合规承诺
关键评测用户满意度安全率 / 拒答得当率引用准确率 / 关系正确率Deflection / AHT / CSAT
典型部署本地+云端混合本地优先 + 严控外发私有云 + 系统集成云端 + 多租户隔离

六、落地建议:从0到1的工程实践要点

6.1 分阶段路线图

Stage 0 — 业务前置:明确至少一个有可量化收益的具体业务场景(不要泛泛而谈”做企业知识库”)。绘制核心查询样本集(50—200条真实查询)作为评测基准。

Stage 1 — 基线:用Advanced RAG跑通端到端管线。重点投资在Parsing质量、Hybrid Search、Reranker,不要在Naïve RAG上浪费时间。目标:在测试集上Answer Correctness >60%、延迟<2s。

Stage 2 — 优化:Contextual Chunking、查询改写、引用强制、Guardrail。建立Ragas评测流水线,每个上线变更前自动跑回归。目标:Answer Correctness >75%、幻觉率<5%。

Stage 3 — 流派分化:根据失败case的模式分析,定向引入GraphRAG(如果关系类失败居多)或Agentic RAG(如果多跳推理类失败居多)。引入query classifier做Adaptive路由。

Stage 4 — 平台化:把Modular RAG作为公司级AI中台基础设施,所有业务共用一套Indexing、Retrieval、Evaluation底座,业务侧只编排流程。

6.2 容易踩的坑

6.3 技术栈推荐(参考组合)

层级推荐组件(按场景规模)
文档解析小:Unstructured.io、PyMuPDF;大:Azure Document Intelligence、AWS Textract、ColPali(视觉文档)
切片LlamaIndex SemanticSplitter、Contextual Retrieval(Anthropic)、Late Chunking
嵌入模型中文:bge-m3、Qwen-Embedding、Conan-embedding;英文:text-embedding-3-large、Cohere Embed v3、Voyage-3
向量库起步:Chroma、pgvector;规模化:Milvus、Qdrant、Weaviate;托管:Pinecone
稀疏检索Elasticsearch、OpenSearch(BM25)、SPLADE
Rerankerbge-reranker-v2-m3(开源)、Cohere Rerank、Jina Reranker、ColBERTv2
编排框架LangChain / LangGraph、LlamaIndex、Haystack、DSPy、RAGFlow、Dify
知识图谱Neo4j、TigerGraph、NebulaGraph;GraphRAG实现:Microsoft GraphRAG、LightRAG
评测Ragas、ARES、TruLens、Phoenix、DeepEval
可观测性Langfuse、LangSmith、Helicone、Arize Phoenix

七、展望:从RAG到上下文工程

回顾2020—2026的演进,RAG完成了一个完整的”S曲线”:从学术补丁,到工程标配,到流派分化,再到平台化与泛化。可以说,每一波LLM能力的升级(更长上下文、更强Agent能力、更好的多模态),都没有”杀死”RAG,反而让RAG的内核——“在巨量候选中精准提供恰当上下文”——变得更加不可或缺。

展望2026及以后,有几条趋势值得关注:

  1. 上下文工程(Context Engineering)将取代RAG成为更准确的描述词,把知识检索、工具检索、记忆检索、用户画像检索统一为Agent的上下文供给体系;
  2. **多模态视觉文档RAG(ColPali系)将逐步取代”OCR+文本RAG”**成为复杂文档处理的主流;
  3. GraphRAG与Agentic RAG的边界进一步模糊,“Agent on Graph”成为常见模式;
  4. 评测和可观测性会变得和模型本身同等重要,没有评测就没有可靠的RAG;
  5. 端侧/小模型RAG会因隐私和成本驱动迎来新的发展,老人陪伴、个人助理类场景尤为典型。

最后想强调的是:RAG从来不是单一算法,而是一种”让大模型与真实世界知识动态对齐”的工程哲学。流派的选择不是技术信仰之争,而是基于业务场景、查询模式、成本预算、合规要求的工程权衡。本文给出的所有架构建议都不是”最优解”,而是在多个约束下”足够好且可演进”的起点——真正的RAG工程,始于场景理解,成于持续迭代。

附录:核心术语对照

术语英文简要说明
朴素RAGNaïve RAG最简单的”检索-拼接-生成”三步管线
增强RAGAdvanced RAG在每个环节叠加优化(Hybrid Search、Rerank、查询改写)
模块化RAGModular RAG把RAG拆为可编排的模块,便于多业务复用
图增强RAGGraphRAG用知识图谱替代/补充向量索引,擅长关系与全局查询
智能体RAGAgentic RAGLLM作为决策核心,主动判断、多轮检索、自我纠错
自适应RAGAdaptive RAG由分类器把不同查询路由到不同RAG管线
上下文工程Context EngineeringRAG的泛化形态,统一管理知识/工具/记忆/画像
混合检索Hybrid Search稠密向量 + 稀疏关键词(BM25)融合检索
重排Rerank用Cross-Encoder对粗排结果做精排
RRFReciprocal Rank Fusion用排名倒数融合多路检索结果的算法
上下文检索Contextual RetrievalAnthropic方案:为每个chunk生成上下文后再嵌入
晚交互Late InteractionColBERT等:query与doc独立编码、查询时做token级匹配
长期记忆Long-Term Memory (LTM)面向交互式动态记忆的存储机制,与静态RAG互补
MCPModel Context ProtocolAnthropic主导的模型工具上下文标准协议

— 全文完 —

展开评论Show comments