百度网站降级的原因,淘宝网站开发框架,wordpress定时发布的文章失效,北京建站公司排名首推万维科技#x1f60a;你好#xff0c;我是小航#xff0c;一个正在变秃、变强的文艺倾年。 #x1f514;本专栏《人工智能》旨在记录最新的科研前沿#xff0c;包括大模型、具身智能、智能体等相关领域#xff0c;期待与你一同探索、学习、进步#xff0c;一起卷起来叭#xff… 你好我是小航一个正在变秃、变强的文艺倾年。 本专栏《人工智能》旨在记录最新的科研前沿包括大模型、具身智能、智能体等相关领域期待与你一同探索、学习、进步一起卷起来叭 PaperWebDancer: Towards Autonomous Information Seeking Agency 时间202505 推荐指数 往期精彩专栏内容欢迎订阅
【多智能体】20250611基于嵌套进化算法的多代理工作流 【多智能体】20250610受木偶戏启发实现多智能体协作编排 【多智能体】20250609基于LLM自进化多学科团队医疗咨询多智能体框架 【具身智能体】20250608EvoAgent针对长时程任务具有持续世界模型的自主进化智能体
创新性
系统化的框架论文提出了一个系统的、端到端的框架用于从头开始构建多步信息检索网络代理。该框架包括四个关键阶段数据构建、轨迹采样、监督微调和强化学习。高质量数据集合成通过两种方法自动合成高质量的QA数据集CRAWLQA和E2HQA这些数据集能够激发多步推理和任务分解。两阶段训练管道采用拒绝采样微调RFT与后续的基于策略的强化学习RL相结合的两阶段训练方法提高了数据效率和策略鲁棒性。ReAct框架的应用利用ReAct框架将推理与行动紧密结合促进了交互环境中的有效学习和泛化。多种工具的使用在轨迹采样阶段限制了动作空间为两种常用的网络信息检索工具搜索查询和点击。强化学习的动态采样机制采用DAPO算法其动态采样机制能够有效利用在SFT阶段未被充分利用的QA对从而提高数据效率和策略鲁棒性。实验验证在GAIA和WebWalkerQA两个具有挑战性的信息检索基准上进行了广泛的实验展示了WebDancer的有效性和鲁棒性。 补充这里可能会存在的疑点 WebDancer代理在数据集合成方面采取了哪些具体策略这些策略如何提高代理的性能 WebDancer代理在数据集合成方面采取了两种主要策略
CRAWLQA通过爬取网页构建深度查询首先从官方和知识性网站收集根URL并通过递归导航子页面来模拟人类浏览行为。然后使用GPT-4o从收集的内容中合成问答对。为了确保问题的特异性和相关性使用提示技术让LLM生成特定类型如COUNT、MULTI-HOP、INTERSECTION的问题。E2HQA通过增强易到难的问答对合成从SimpleQA风格的问答对开始每个答案是一个简洁的事实寻求实体。然后使用LLM构建基于该实体的查询通过搜索引擎获取相关信息再使用另一个LLM重构查询以替换原始实体。通过不断搜索和调整将简单问题逐步转化为复杂的多步问题。 WebDancer代理在训练过程中采用了哪些关键步骤这些步骤如何帮助代理更好地适应复杂 的信息检索任务 WebDancer代理的训练过程包括以下关键步骤
轨迹采样使用两种提示策略生成高质量的轨迹包括短链式思维Short-CoT和长链式思维Long-CoT。短链式思维使用强大的指令LLM生成而长链式思维则利用推理模型LRM在每个步骤中进行自主决策。监督微调SFT在SFT阶段使用监督学习对策略模型进行微调以捕捉完整的代理轨迹。损失函数通过过滤掉外部反馈的标记确保仅计算代理的自主决策步骤。SFT阶段为后续的RL阶段提供了强大的初始化。强化学习RL在RL阶段采用解耦剪辑和动态采样策略优化DAPO算法。DAPO算法通过动态采样机制有效地利用在SFT阶段未被充分利用的问答对从而提高数据效率和策略鲁棒性。奖励设计包括格式奖励和答案奖励最终奖励函数结合了这两者。
研究背景
研究问题这篇文章要解决的问题是如何构建自主的多步骤信息检索代理。具体来说研究如何从数据中心和训练阶段的角度构建端到端的自主信息检索代理。研究难点该问题的研究难点包括获取高质量、细粒度的浏览数据以反映用户意图和丰富的交互上下文构建支持长期推理和任务分解的可靠轨迹设计可扩展且具有泛化能力的训练策略使网络代理能够在分布外的网页环境中、复杂的交互模式和长期目标下表现出稳健的行为。相关工作该问题的研究相关工作包括直接利用提示工程技术指导大型语言模型LLMs或大型推理模型LRMs执行复杂任务通过监督微调SFT或强化学习RL将搜索或浏览器功能整合到网络代理中。现有方法的训练和评估数据集相对简单无法捕捉现实世界的挑战。
研究方法
这篇论文提出了一个系统化的框架用于从头开始构建端到端的多步骤信息检索代理。具体来说
数据集合成首先构建高质量的深度信息检索问答对数据集。该过程包括两个方面通过爬取网页构建深度查询CRAWLQA以及通过增强易到难的问答对合成E2HQA来激励从弱代理到强代理的转变。轨迹采样其次使用两种提示策略生成高质量的轨迹一种是使用强大的指令LLM进行短链式思维Short-CoT另一种是利用LRM进行长链式思维Long-CoT。这些轨迹包含短或长的思考内容。监督微调然后采用拒绝采样微调RFT与后续的基于策略的强化学习RL相结合的两阶段方法。在SFT阶段使用监督学习对策略模型进行微调以捕捉完整的代理轨迹。损失函数如下 其中 I [ x i e q o ] I[x_{i}eq o] I[xieqo]过滤掉对应外部反馈的标记确保损失仅计算代理的自主决策步骤。强化学习最后在RL阶段采用解耦剪辑和动态采样策略优化DAPO算法。DAPO算法通过动态采样机制有效地利用在SFT阶段未被充分利用的问答对从而提高数据效率和策略鲁棒性。奖 励设计主要包括格式奖励和答案奖励最终奖励函数如下 R ( y ^ i , y ) 0.1 ∗ s c o r e format 0.9 ∗ s c o r e answer R\left(\hat{y}{i}, y\right)0.1* score{\text{format}}0.9*score_{\text{answer}} R(y^i,y)0.1∗scoreformat0.9∗scoreanswer
实验设计
数据集在GAIA和WebWalkerQA两个深度信息检索基准上进行评估。使用LLM作为评委采用Pass1指标进行评估。数据集包括GAIA的103个问题和WebWalkerQA的680个问题。模型使用Qwen-7B、Qwen-32B和QwQ-32B模型进行实验。Qwen-7B和Qwen-32B在Short-CoT数据集上训练QwQ-32B在Long-CoT数据集上训练。实现细节使用ReAct框架实现代理构建评委模型 M j M_{j} Mj并设计奖励提示。RL阶段采用Verl支持RL算法和回滚。回滚次数为16次推理参数设置为温度0.6topp0.95。
结果与分析
主要结果在GAIA和WebWalkerQA基准上没有代理能力NoAgency的框架表现较差突显了主动信息检索和代理决策的必要性。闭源代理系统OpenAIDR通过端到端RL训练取得了最高分。开源框架中基于强推理模型的代理如QwQ-32B一致优于其非代理对应物证明了在代理构建中利用推理专用模型的有效性。更具挑战性的基准在BrowseCompEn.和BrowseComp-zhZh.两个更具挑战性的数据集上WebDancer表现出一致的强劲性能突显了其处理复杂推理和信息检索任务的鲁棒性和有效性。详细分析在GAIA数据集上RL显著提高了Pass3和Cons3。高质量的轨迹数据对于代理的有效SFT至关重要。SFT对于冷启动至关重要因为代理任务需要强大的多步骤多工具指令跟随能力。RL实现了更长的推理过程和更复杂的代理动作。
总体结论
这篇论文提出了一个系统化的框架用于从头开始构建端到端的多步骤信息检索代理。通过引入可扩 展的问答数据合成方法和结合SFT和基于策略的RL的两阶段训练管道WebDancer代理在GAIA和WebWalkerQA上取得了强劲的性能。这些发现突显了所提出的训练策略的重要性并为代理训练的关键方面提供了宝贵的见解。未来的研究将致力于开发更先进的工具、扩展任务范围和优化数据利用策略以进一步提高代理的能力。 [ 笔者 ] 文艺倾年[ 更新 ] 2025.6.15
❌ [ 勘误 ] /* 暂无 */[ 声明 ] 由于作者水平有限本文有错误和不准确之处在所难免本人也很想知道这些错误恳望读者批评指正