中文

English

凯发k8国际首页登录|JEALOUSVUE进不去|搜索智能体RAG落地不佳_UI

发布时间:2025-07-06   信息来源:凯发k8一触即发集团

  当前✿ღ,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径✿ღ。但在真实实践中✿ღ,搜索智能体的强化学习训练并未展现出预期的稳定优势✿ღ。一方面凯发k8国际首页登录✿ღ,部分方法优化的目标与真实下游需求存在偏离✿ღ,另一方面✿ღ,搜索器与生成器间的耦合也影响了泛化与部署效率✿ღ。

  我们(UIUC & Amazon)提出的s3(Search-Select-Serve)是一种训练效率极高JEALOUSVUE进不去✿ღ、结构松耦合✿ღ、生成效果导向的 RL 范式✿ღ。该方法使用名为Gain Beyond RAG (GBR)的奖励函数✿ღ,衡量搜索器是否真的为生成带来了有效提升✿ღ。实验表明✿ღ,s3 在使用仅2.4k 训练样本的情况下凯发k8国际首页登录✿ღ,便在多个领域问答任务中超越了数据规模大百倍的强基线(如 Search-R1✿ღ、DeepRetrieval)✿ღ。

  DeepRetrieval✿ღ:以 Recall✿ღ、NDCG 等搜索指标为优化目标✿ღ,专注于检索器本身的能力✿ღ;Search-R1✿ღ:将检索与生成联合建模✿ღ,以最终答案是否 Exact Match 作为强化信号✿ღ,优化整合式的搜索 - 生成策略✿ღ。

  Search-R1 等方法采用Exact Match (EM)作为主要奖励指标✿ღ,即答案是否与参考答案字面一致✿ღ。这一指标过于苛刻✿ღ、对语义变体不敏感✿ღ,在训练初期信号稀疏JEALOUSVUE进不去✿ღ,容易导致模型优化「答案 token 对齐」而非搜索行为本身

  无法判断性能提升究竟来自「更好的搜索」✿ღ,还是「更强的语言生成对齐能力」✿ღ;对 LLM 参数依赖强✿ღ,不利于模型迁移或集成✿ღ;微调大模型成本高✿ღ,限制了训练效率和模块替换的灵活性✿ღ。

  EM凯发首页官网登录✿ღ!✿ღ、span match 等传统 QA 指标主要关注输出结果凯发一触即发✿ღ。✿ღ,与搜索质量关联有限✿ღ。而 search-oriented 指标(如 Recall@K)虽可度量 retriever 性能✿ღ,却无法体现这些信息是否真的被模型「用好」✿ღ。这些偏差直接导致现有 RL Agentic RAG 方法在评估凯发k8娱乐官网入口✿ღ,✿ღ、训练和泛化上均存在瓶颈JEALOUSVUE进不去凯发k8国际(中国)官方网站·一触即发✿ღ。

  如果我们真正关心的是「搜索提升了生成效果」✿ღ,那就应该只训练搜索器凯发k8国际首页登录✿ღ、冻结生成器凯发k8✿ღ,✿ღ,并以生成结果提升为奖励

  即✿ღ:用 s3 搜索到的上下文喂给 Frozen Generator 之后的生成效果✿ღ,相比初始的 top-k 检索结果是否更好✿ღ。值得注意的是凯发k8国际首页登录✿ღ,s3 训练时始终初始化于相同的原始 query✿ღ,从而能清晰对比 s3 检索对结果带来的真实「增益」✿ღ。

  两者只要任意一个通过✿ღ,则视为正确✿ღ。这一指标在人工对比中与人类判断一致率高达96.4%✿ღ,相比之下✿ღ,EM 仅为15.8%

  我们预筛除掉了「naive RAG 就能答对」的样本✿ღ;将训练样本集中在需要真正检索的新信息的任务上✿ღ;Generator 完全冻结✿ღ,训练代价完全集中在 Searcher✿ღ。

  我们随后在五个医学领域的 QA 数据集上进一步评估了模型性能凯发k8国际首页登录✿ღ,测试使用了两个语料库✿ღ:Wikipedia2018(与通用测试一致)和 MedCorp(ACL 2024)✿ღ。结果显示✿ღ,Search-R1 在其训练语料上表现良好✿ღ,但在语料变更后显现出过拟合趋势✿ღ;相比之下✿ღ,s3 能稳定迁移至不同的数据集与语料库✿ღ,凸显出其基于 searcher-only 优化策略的强泛化能力✿ღ。

  reward 优化曲线 展示了我们的 reward 曲线 个训练步骤(batch size 为 120)内便迅速「收敛」✿ღ。这一现象支持两个推断✿ღ:(1)预训练语言模型本身已具备一定的搜索能力✿ღ,我们只需通过合理的方式「激活」这种能力✿ღ;(2)在一定范围内✿ღ,适当增加每轮搜索的文档数量和最大轮次数✿ღ,有助于提升最终性能✿ღ。

  在不同配置下✿ღ,移除组件对性能的影响(平均准确率)凯发k8国际首页登录✿ღ。我们使用了三组设定进行对比✿ღ,结果表明 s3 的设计在准确性与效率之间达到了最优平衡凯发k8国际首页登录✿ღ。

  「从原始问题开始检索」是方向正确的保障✿ღ:我们发现✿ღ,以用户原始问题作为第一轮检索的起点✿ღ,有助于模型明确搜索目标✿ღ、建立有效的检索路径✿ღ。若不设置这一初始点✿ღ,搜索策略往往偏离主题JEALOUSVUE进不去✿ღ,导致性能显著下降✿ღ。「文档选择」机制显著降低 token 消耗✿ღ:该机制允许模型在每轮检索后主动筛选信息✿ღ,从而避免将所有检索结果一股脑送入生成器✿ღ。通过这一设计✿ღ,s3 的输入 token 平均减少了 2.6 至 4.2 倍✿ღ,不仅提升了效率✿ღ,也减少了噪声干扰✿ღ,对生成效果有正面作用✿ღ。

  总体来看✿ღ,s3 设计中的「起点初始化 + 动态选择」是支撑其高效✿ღ、强泛化性能的关键✿ღ。即使在某些数据集上通过增加输入内容能获得短期增益✿ღ,s3 原始结构在训练效率✿ღ、推理速度与生成准确率上依然展现出更稳定的优势✿ღ。

  A1✿ღ:Search-R1 原文使用 Exact Match(EM)作为 reward 和评估指标✿ღ,并对模型进行了针对性微调✿ღ。将这种针对 EM 优化的模型凯发k8国际首页登录✿ღ,与其他 zero-shot 方法比较✿ღ,略显不公平凯发k8✿ღ,✿ღ,也难以衡量搜索本身的效果✿ღ。因此我们采用更语义友好的 Generation Accuracy(GenAcc)✿ღ,结合 span 匹配和 LLM 判断✿ღ,与人类评估一致率达 96.4%✿ღ。相比之下✿ღ,EM 只能捕捉字面一致✿ღ,反而容易误导模型优化方向K8凯发·(中国)官方网站✿ღ,✿ღ。

  A2✿ღ:我们设计 s3 的核心理念是✿ღ:如果我们想真正优化搜索效果✿ღ,不应让生成器被训练JEALOUSVUE进不去凯发,凯发k8,K8✿ღ,✿ღ,否则会混淆「搜索变好」与「语言模型变强」带来的增益✿ღ。冻结生成器不仅提升了训练效率(节省大模型微调成本)✿ღ,也便于模型迁移到不同任务与生成器✿ღ,真正做到「搜索能力即插即用」✿ღ。

上一篇 : AG凯发k8真人娱乐起亚即将发布旗舰车型|墨沉域和苏小柠的故事|K8 车长超5米
下一篇: 没有了