从“能查到”到“查得准”:Agentic RAG 在 B2B 复杂业务场景的工程实践

张开发
2026/4/10 6:42:01 15 分钟阅读

分享文章

从“能查到”到“查得准”:Agentic RAG 在 B2B 复杂业务场景的工程实践
前言我们是语核科技的技术团队专注于 B2B 售前场景的 AI 工程化落地。在构建售前数字员工产品的过程中我们遇到了一个在企业 RAG 落地中极为普遍的问题基础 RAG 流程的检索准确率在实验室环境下看似不错但一旦进入真实业务场景——面对几百页的投标文件、跨文档的技术参数对比、长链路的方案生成任务——准确率就开始显著下降。本文分享我们在解决这一问题过程中的工程思路为什么传统 RAG 在复杂业务场景下表现不佳以及我们如何通过引入 Agentic RAG 架构、双轨检索模式和数据层优化将售前数字员工的业务检索能力提升到可量化、可落地的水平。一、传统 RAG 的工程局限问题的本质企业知识不是标准 QA 库很多 RAG 实现方案在设计时隐含了一个假设知识库是结构良好的问题和答案有较清晰的对应关系。但企业私有知识库的实际情况与此相差甚远体量大一个中型制造企业的技术知识库可能包含数千份 PDF、Word 文档、Excel 表格结构复杂同一个技术参数可能散落在 3 份文档的不同版本中且表述不一致检索类型多样业务人员的提问既有单值型“这个设备的额定功率是多少”也有对比型“A 型号和 B 型号的功耗差异”还有总结型“生成这个客户的完整解决方案”传统 RAG 对这三类检索走同一套流程结果是简单问题向量召回 top-k → 拼接上下文 → 生成答案 复杂问题向量召回 top-k → 拼接上下文 → 生成答案同上对于单值型检索这套流程基本够用。但对于对比推理型和总结概述型检索单次向量召回的 top-k 往往无法覆盖所有需要参考的文档片段导致生成结果不完整、甚至存在事实错误。售前场景的典型挑战以我们的核心业务场景——售前方案生成为例任务链路如下客户需求输入 ↓ 理解需求意图生成方案大纲含 5-10 个核心要点 ↓ 对每个要点在知识库中检索公司介绍 / 历史解决方案 / 相关客户案例 / 产品规格数据 ↓ 综合检索结果生成结构化方案文档这个任务对 RAG 系统提出了两个传统架构无法满足的需求上下文容量问题为覆盖方案大纲的全部要点需要同时引入大量相关片段极易超出模型的 context window动态路径规划数字员工需要根据阶段性检索结果判断当前信息是否足以支撑某个要点的内容生成并在信息不足时自主决定补充检索而不是等所有检索完成后再生成二、Agentic RAG让检索具备推理过程核心思路我们引入了 Agentic RAG 架构核心改变是将检索从一次性执行变为迭代式推理。传统 RAG query → 向量检索 → 召回 top-k → LLM 生成 Agentic RAG query → 意图分析 → 任务规划 → [检索 → 评估 → 是否需要补充检索] × N → 汇总生成具体实现上我们构建了一个由五个智能组件组成的动态检索闭环依次承担意图分析、子任务规划、多策略检索执行、信息完整性评估和最终生成五个职责┌─────────────────────────────────────────────────┐ │ Agentic RAG 核心 │ │ │ │ ① 意图与复杂度判断 │ │ ↓ │ │ ② 子任务拆解与检索路径规划 │ │ ↓ │ │ ③ 多策略检索执行 │ │ ↓ │ │ ④ 信息完整性评估 │ │ ↓ 若信息不足回到 ③ │ │ ⑤ 基于完整上下文生成 │ └─────────────────────────────────────────────────┘信息完整性评估是这套架构的关键环节。它负责在每轮检索后评估当前已召回的内容是否足以支撑任务目标主要判断关键实体如特定型号、技术参数、客户名称是否已被覆盖存在冲突的信息片段是否已通过多源验证得到解决尚未找到答案的子任务是否需要切换检索策略如扩大范围、使用不同关键词这种边查边想、按需补充的机制使得系统在处理复杂推理型检索时不再是被动地拼接信息而是能逐步收敛到可用于业务决策的结论。ReAct 推理机制的应用在深度检索模式下我们采用了 ReActReasoning Acting推理机制来驱动多轮检索。每一步遵循先推理、再行动的节奏[当前已有信息] [任务目标] ↓ Reasoning判断下一步应该做什么 ├── 信息不足 → Acting发起新一轮检索可选 semantic / keyword / hybrid 策略 ├── 信息存在冲突 → Acting对冲突片段进行多源验证 └── 信息已充分 → 结束循环进入生成阶段 ↓ 将检索结果追加到上下文进入下一轮 Reasoning这个循环最多执行 N 轮根据任务复杂度配置上限每轮结束后由信息完整性评估模块判断是否继续。对于简单事实查询通常 1-2 轮即可收敛对于复杂的方案生成任务可能需要多轮才能覆盖所有要点。核心价值在于检索不再是一次性的静态操作而是随着信息积累不断自我修正的动态过程。这使得系统在面对信息分散、结构复杂的企业知识库时能逐步收敛到完整、可靠的结论。三、双轨检索模式效率与深度的平衡为什么不把所有问题都走 Agentic 路径Agentic RAG 的推理和多轮检索会带来额外的延迟典型值深度检索比单次检索多 1.5-3 秒和 token 消耗。对于高频的简单查询这个开销是不必要的。我们设计了双轨检索模式用户问题输入 ↓ 意图复杂度分类器 ├── 简单型single-hop→ 快速检索通道目标 1s 响应 │ ↓ │ 一次向量检索 → 召回 top-3 → 直接生成 │ └── 复杂型multi-hop / reasoning→ 深度检索通道 ↓ Agentic RAGReAct Evidence Evaluator复杂度分类方面我们使用了一个轻量分类模型基于规则 小模型打分核心特征包括问题中是否包含对比词“区别”“优劣”“相比”问题是否涉及多个实体的关联“A 客户 B 产品”问题是否要求生成性输出“帮我写”“生成”“拟定”问题中是否有时间序列约束“最新的”“历史上”快速检索通道响应速度显著优于深度检索通道适合高频、低复杂度的日常查询场景在保持秒级响应的同时降低整体计算成本。深度检索通道的完成时间随任务复杂度变化方案生成类任务耗时相对较长但输出结果可靠性更高适合对准确性要求严格的关键业务场景。实际场景中绝大多数业务问题属于单跳型查询只有少量复杂推理任务需要走深度通道。这种分流机制使系统在整体响应效率和准确性之间取得平衡。四、数据层准确率的真正地基工程层的优化能解决查的方式的问题但如果输入的数据质量本身有问题检索精度的上限也会受到限制。我们在数据层做了三方面的专项优化。4.1 多模态文档解析企业文档往往不是纯文本而是包含大量表格、图片、混合排版内容。传统 OCR 在处理复杂表格如合并单元格、嵌套表头、图文混排时准确率有明显下降。我们基于多模态模型构建了专用解析管线核心能力复杂表格还原识别合并单元格正确重建行列关系而非将表格展平为线性文本图文关联识别图片与其相邻文字标注的语义关联将图表内容与正文上下文绑定版式感知识别标题层级H1/H2/H3在切片时保留文档的逻辑结构当前我们的多模态文档解析在标准企业文档集合上的整体字段准确率达到 99%包含纯文本、简单表格、复杂表格三类文档。4.2 语义感知的切片策略文档解析完成后如何切片直接影响召回质量。固定长度切片如每 512 token 一段会导致语义完整的段落被截断检索时召回的片段缺乏完整上下文。我们采用了基于语义的滑动窗口切片核心思路是以语义完整的边界段落边界、列表项边界、标题边界作为切分点而非按固定 token 数硬截断。同时在相邻切片之间保留一定重叠避免跨切片的上下文信息在检索时割裂。具体流程文档全文 ↓ 按语义边界拆分为基本单元句子 / 段落 / 列表项 ↓ 滑动累积将单元逐步并入当前切片 ├── 当前切片未超过 max_size → 继续并入 └── 即将超过 max_size → 在当前语义边界处切断保留末尾若干单元作为 overlap ↓ 输出切片列表每个切片语义完整相邻切片有适度重叠关键点在于切分位置的选择优先在段落结束处、列表完整结束处切分保证每个切片在语义上是自完备的检索时召回的片段不会因为被截断而缺失关键信息。4.3 结构化元数据索引仅靠向量相似度检索对于一些精确匹配场景如型号 XR-2200 的额定电压是多少效果不如关键词检索。我们为每个切片自动生成多维度元数据标签支持向量检索与关键词检索的混合策略。标签体系示例以制造业技术文档为例切片元数据结构 ├── document_type 文档类型技术规格书 / 历史方案 / 客户案例 / 产品目录 ├── extracted_entities 提取的关键实体型号名称、技术参数类型、客户行业 ├── date 文档时间用于时效性排序 ├── section_path 文档章节路径如3.2 电气参数 └── confidence 解析置信度低置信度切片在召回排序中降权在实际检索时系统根据查询意图动态选择策略含精确型号 / 参数名的查询 → 优先走元数据过滤 关键词召回语义理解类查询 → 优先走向量召回复杂查询 → 混合召回后通过 reranker 精排五、实测效果在真实业务环境中优化后的系统在复杂业务检索场景的准确率和响应完整度均有显著提升具体体现在单值型查询准确率基础已经较高优化后进一步收敛误召回和漏召回明显减少对比推理型查询传统 RAG 最薄弱的场景Agentic 架构通过多轮检索和信息整合显著改善了答案的完整性和逻辑一致性方案生成任务要点覆盖率和内容结构完整性提升明显减少了检索到部分信息但漏掉关键要点的情况以售前报价场景为例某装备制造企业客户使用优化后的售前数字员工完整报价文档的生成时间从人工的平均4 天缩短至20 分钟报价内容的准确率经人工复核达到92%剩余 8% 为需要销售经理判断的非标场景。六、总结与展望回顾整个优化路径可以提炼出几个对企业 RAG 落地有参考价值的工程原则先诊断瓶颈再选方案准确率问题可能来自解析层、切片层、检索层或生成层不同环节的问题需要不同的优化手段盲目升级大模型不能解决检索问题Agentic 化是方向但要控制成本双轨模式比全量 Agentic 更适合生产场景对高频简单查询保持低延迟对复杂任务投入深度推理数据质量是上限再精妙的检索架构也无法从低质量的切片中召回高质量信息文档解析和切片策略值得投入专项优化以业务指标驱动技术选型技术选型的标准应该是业务问题是否被解决而非技术方案是否足够复杂后续我们计划探索的方向针对垂直岗位场景的检索路径预训练基于岗位 SOP 生成定制化检索策略以及多 Agent 协作场景下的知识路由机制。关于语核科技语核科技成立于 2023 年 5 月作为国内领先的 B2B AI Native 公司始终致力于为个人与组织提供AI劳动力创造增量生产力、释放人类潜能帮助企业快速训练能够真正上岗工作的AI数字员工为企业直接交付业务结果。截至2025年公司已完成数千万融资营收突破千万助力上海仪电集团、中远海运集团、唯捷创芯等龙头企业实现业务突破并先后获央视等多家官媒与专业科技媒体深度报道荣获几十项各类荣誉实现行业硬实力与市场影响力持续领跑。

更多文章