toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,185个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

ToolCUA:让Agent学会在GUI和工具之间正确选路

2026/05/31
·toolin小编

复旦x通义开源CUA训练范式,8B模型在OSWorld-MCP上准确率46.85%,超越Claude-4-Sonnet,代码和模型权重已开源。

ToolCUA:让Agent学会在GUI和工具之间正确选路
ToolCUA:让Agent学会在GUI和工具之间正确选路
2026/05/31

ToolCUA:让Agent学会在GUI和工具之间正确选路

复旦x通义开源CUA训练范式,8B模型在OSWorld-MCP上准确率46.85%,超越Claude-4-Sonnet,代码和模型权重已开源。

问题:混合动作空间下的路径困惑两阶段训练方案第一阶段:数据合成与Tool-Bootstrapped RFT第二阶段:Online Agentic RL评测结果OSWorld-MCP 主评测跨平台迁移消融实验:为什么ToolCUA真正学会了选路实际案例:GUI与工具的协同获取方式适合谁用
AI产品

给Agent同时接上GUI操作和工具调用,准确率反而下降了——该点按钮的时候去调API,该调API的时候又死磕菜单,两头乱窜。复旦大学和通义实验室MobileAgent团队联合开源的 ToolCUA,专门解决这个问题:让模型学会什么时候走GUI,什么时候切工具,什么时候不该调工具。

ToolCUA-8B在OSWorld-MCP上拿到46.85%准确率,超过Claude-4-Sonnet的43.54%,逼近Claude-4.5-Sonnet的48.35%。代码和模型权重已全面开源。

Image

问题:混合动作空间下的路径困惑

传统CUA(Computer Use Agent)主要依赖GUI操作——点击、输入、拖拽、滚动。泛化性强,但步骤长、误差容易累积。而工具调用(Tool Calls)往往更高效、更精确,比如在LibreOffice里批量处理表格,一个API调用可以替代一串冗长的菜单点击。

看起来最自然的方案是让Agent同时拥有GUI和Tool。但实验发现一个反直觉的事实:

模型无工具准确率有工具准确率变化
Qwen3VL-8B29.0%28.2%-0.8%
Qwen3VL-235B41.1%38.1%-3.0%
Claude-4-Sonnet47.7%43.5%-4.2%
Claude-4.5-Sonnet61.9%48.4%-13.5%

模型越强,加入工具后准确率下降越严重。Claude-4.5-Sonnet甚至掉了13.5个百分点。问题不是有没有工具,而是模型在GUI和Tool之间不会选路。

Image

两阶段训练方案

第一阶段:数据合成与Tool-Bootstrapped RFT

高质量interleaved GUI-Tool轨迹数据非常稀缺。ToolCUA的方案是:把现有的GUI-only数据盘活,自动合成混合轨迹。

Image

整个pipeline分三步:

  1. 从GUI轨迹中抽象工具库:分析每条GUI轨迹的任务目标、动作序列和截图描述,从真实操作流程中抽象出可调用的工具。比如从Chrome设置流程中抽象出 chrome_open_language_settings。
  2. 生成等价的工具轨迹:给定合成工具库和原始GUI轨迹,生成功能等价的tool-only轨迹,并通过next-state grounding验证工具步骤和状态变化一致。
  3. 生成交错混合轨迹:不简单地把所有GUI操作替换成工具,而是随机采样部分工具调用替换回对应GUI子序列,形成GUI与Tool交错的多条轨迹。这让模型看到不同决策边界下的切换点。

最终产出约4k个unique tools、180k steps的warmup SFT数据和5k条critical steps的single-turn RL数据。

第二阶段:Online Agentic RL

第一阶段解决的是「会用工具」,第二阶段解决的是「在真实环境中学会trajectory-level的路径选择」。

核心是 Tool-Efficient Path Reward,包含两个专项奖励:

  • R_tool(工具适当性奖励):奖励的不是工具调用更多,而是精确的行为——适合工具的任务确实用了工具,不适合工具的任务没有乱用工具。
  • R_length(路径效率奖励):做group-relative comparison,如果某条成功轨迹比组内平均更短,给线性bonus。鼓励模型发现更高效的执行路径。

关键设计:这两项奖励只在成功轨迹上激活,避免模型从失败执行里学到错误偏好。

Image

评测结果

OSWorld-MCP 主评测

Image

模型AccuracyACS(平均步数)
Qwen3-VL-8B(基线)28.23%19.34
GUI-Owl-1.5-8B43.84%-
Claude-4-Sonnet43.54%-
ToolCUA-8B46.85%14.93
Claude-4.5-Sonnet48.35%-

ToolCUA-8B的ACS仅为14.93 steps,是所有模型里最低的。不只是完成了更多任务,也学会了用更短路径完成任务。相比基线,相对提升约66%。

跨平台迁移

在WindowsAgentArena上,尽管训练数据全部来自Linux桌面环境,ToolCUA在unseen Windows桌面应用上达到33.8%准确率,超过Qwen3-VL-8B(26.4%)、Qwen3-VL-32B(30.9%)和Qwen3-VL-235B(32.1%)。学到的不是特定任务模板,而是可迁移的混合动作编排能力。

Image

消融实验:为什么ToolCUA真正学会了选路

三条关键结论:

1. 没有interleaved数据,online RL学不会稳定的工具调用

直接从baseline开始做online agentic RL时,TIR(工具调用率)长期偏低,训练后期也只到约15%,tool calls在大部分训练过程中接近0。模型需要先通过interleaved supervision获得工具知识和切换先验。

2. 没有Tool-Efficient Path Reward,路径不稳定

去掉R_tool和R_length后,accuracy曲线明显不稳定,在训练step 8-11左右出现下降,最终与完整ToolCUA之间有约7个点的差距。

3. Hybrid训练比pure GUI训练更有效

GUI-only pipeline从baseline 29.03%提升到agentic RL后42.05%;而GUI+Tool pipeline中,RFT已经达到38.13%,完整ToolCUA进一步达到46.85%。

实际案例:GUI与工具的协同

案例1:LibreOffice Calc创建透视表

GUI-only方法需要选择数据范围、打开菜单、配置字段、确认参数,步骤冗长且容易出错。ToolCUA先调用工具读取workbook信息和sheet内容,识别数据结构,然后直接调用 create_pivot_table 生成透视表——用结构化工具替代脆弱的逐步GUI导航。

Image

案例2:VS Code添加文件夹到workspace

ToolCUA先用 add_folder 工具把两个目录加入workspace。但完成后VS Code弹出了「Do you trust the authors?」对话框——这个状态不是工具调用能闭环的。ToolCUA自动切换回GUI action,点击确认按钮完成最后一步。

Image

这正是ToolCUA的核心能力:不是用Tool替代所有GUI,也不是退回纯GUI操作,而是在真实环境里学习两种动作空间的协同与切换。

获取方式

  • 项目网站:https://x-plug.github.io/ToolCUA/
  • 代码仓库:https://github.com/X-PLUG/ToolCUA
  • 模型权重:https://huggingface.co/mPLUG/ToolCUA-8B
  • Mobile-Agent系列:https://github.com/X-PLUG/MobileAgent

适合谁用

  • CUA/Agent研究者:研究Computer Use Agent、GUI自动化的学术和工程团队
  • 桌面自动化开发者:需要在真实桌面环境中实现GUI+工具混合操作的工程师
  • 开源模型用户:希望用8B参数的小模型实现接近Claude-4.5-Sonnet级别桌面操作效果的开发者

ToolCUA揭示了一个关键现象:混合动作空间中,现有CUA和强基座模型会出现明显的路径困惑。解决这个问题的核心不是给更多工具,而是教模型学会选路。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
问题:混合动作空间下的路径困惑两阶段训练方案第一阶段:数据合成与Tool-Bootstrapped RFT第二阶段:Online Agentic RL评测结果OSWorld-MCP 主评测跨平台迁移消融实验:为什么ToolCUA真正学会了选路实际案例:GUI与工具的协同获取方式适合谁用

相关文章

Codex Computer Use登陆Windows实操指南
AI教程

Codex Computer Use登陆Windows实操指南

OpenAI Codex正式支持Windows电脑操作,附完整开启步骤、限制说明和手机远程控制方法

avatar for toolin小编
toolin小编
1天前
SkillOpt:像训练神经网络一样训练Agent技能文档
AI产品

SkillOpt:像训练神经网络一样训练Agent技能文档

微软开源的文本空间优化框架,让Agent的技能文档自动进化,52项评测全部达到最优。

avatar for toolin小编
toolin小编
1天前
SenseNova U1:开源信息图生成模型,8B 参数单卡可跑
AI产品

SenseNova U1:开源信息图生成模型,8B 参数单卡可跑

商汤开源的 8B 参数信息图生成模型,Apache 2.0 协议支持商用,文字渲染稳定、版面控制精准,成本约为闭源方案的十分之一。

avatar for toolin小编
toolin小编
2天前