developer.chat
10 July 2025
category
WebAgent for Information Seeking bulit by Tongyi Lab: WebWalker & WebDancer & WebSailor

⛵️ WebSailor的功能
一种完整的训练后方法,使模型能够进行扩展思维和信息寻求,最终使它们能够成功完成以前被认为无法解决的极其复杂的任务。
介绍SailorFog QA,这是一个具有高不确定性和难度的可扩展QA基准,通过图采样和信息混淆的新数据合成方法进行策划。SailorFog QA数据示例可以在以下网址找到:WebSailor/dataset/SailorFog-QA.jsonl
有效的后训练流程包括:
- (1)从专家轨迹中高质量地重建简洁推理,以进行清洁监督;
- (2)两阶段训练过程,包括
- RFT冷启动阶段,
- 然后是复制采样策略优化(DUPO),
这是一种高效的代理RL算法,在有效性和效率方面表现出色。
WebSailor-72B的性能明显优于所有开源代理和框架,同时缩小了与领先专有系统的性能差距,在BrowseComp en上得分12.0%,在BrowseComp zh上得分30.1%,在GAIA上得分55.4%。
检查站即将到来。
🌐 Webcancer的功能
使用ReAct框架的本地代理搜索推理模型,面向自主信息搜索代理和类似深度研究的模型。
我们引入了一种四阶段训练范式,包括
- 浏览数据构建、
- 轨迹采样、
- 监督微调以实现有效的冷启动,
- 以及强化学习以提高泛化能力,
使代理能够自主获得自主搜索和推理技能。
我们以数据为中心的方法集成了轨迹级监督微调和强化学习(DAPO),通过SFT或RL开发了一个可扩展的管道来训练代理系统。
WebCancer实现了Pass@3GAIA和WebWalkerQA的得分分别为64.1%和62.0%。
Github : https://github.com/Alibaba-NLP/WebAgent
文章链接
- 登录 发表评论