复旦x通义开源CUA训练范式,8B模型在OSWorld-MCP上准确率46.85%,超越Claude-4-Sonnet,代码和模型权重已开源。


复旦x通义开源CUA训练范式,8B模型在OSWorld-MCP上准确率46.85%,超越Claude-4-Sonnet,代码和模型权重已开源。
给Agent同时接上GUI操作和工具调用,准确率反而下降了——该点按钮的时候去调API,该调API的时候又死磕菜单,两头乱窜。复旦大学和通义实验室MobileAgent团队联合开源的 ToolCUA,专门解决这个问题:让模型学会什么时候走GUI,什么时候切工具,什么时候不该调工具。
ToolCUA-8B在OSWorld-MCP上拿到46.85%准确率,超过Claude-4-Sonnet的43.54%,逼近Claude-4.5-Sonnet的48.35%。代码和模型权重已全面开源。

传统CUA(Computer Use Agent)主要依赖GUI操作——点击、输入、拖拽、滚动。泛化性强,但步骤长、误差容易累积。而工具调用(Tool Calls)往往更高效、更精确,比如在LibreOffice里批量处理表格,一个API调用可以替代一串冗长的菜单点击。
看起来最自然的方案是让Agent同时拥有GUI和Tool。但实验发现一个反直觉的事实:
| 模型 | 无工具准确率 | 有工具准确率 | 变化 |
|---|---|---|---|
| Qwen3VL-8B | 29.0% | 28.2% | -0.8% |
| Qwen3VL-235B | 41.1% | 38.1% | -3.0% |
| Claude-4-Sonnet | 47.7% | 43.5% | -4.2% |
| Claude-4.5-Sonnet | 61.9% | 48.4% | -13.5% |
模型越强,加入工具后准确率下降越严重。Claude-4.5-Sonnet甚至掉了13.5个百分点。问题不是有没有工具,而是模型在GUI和Tool之间不会选路。

高质量interleaved GUI-Tool轨迹数据非常稀缺。ToolCUA的方案是:把现有的GUI-only数据盘活,自动合成混合轨迹。

整个pipeline分三步:
chrome_open_language_settings。最终产出约4k个unique tools、180k steps的warmup SFT数据和5k条critical steps的single-turn RL数据。
第一阶段解决的是「会用工具」,第二阶段解决的是「在真实环境中学会trajectory-level的路径选择」。
核心是 Tool-Efficient Path Reward,包含两个专项奖励:
关键设计:这两项奖励只在成功轨迹上激活,避免模型从失败执行里学到错误偏好。


| 模型 | Accuracy | ACS(平均步数) |
|---|---|---|
| Qwen3-VL-8B(基线) | 28.23% | 19.34 |
| GUI-Owl-1.5-8B | 43.84% | - |
| Claude-4-Sonnet | 43.54% | - |
| ToolCUA-8B | 46.85% | 14.93 |
| Claude-4.5-Sonnet | 48.35% | - |
ToolCUA-8B的ACS仅为14.93 steps,是所有模型里最低的。不只是完成了更多任务,也学会了用更短路径完成任务。相比基线,相对提升约66%。
在WindowsAgentArena上,尽管训练数据全部来自Linux桌面环境,ToolCUA在unseen Windows桌面应用上达到33.8%准确率,超过Qwen3-VL-8B(26.4%)、Qwen3-VL-32B(30.9%)和Qwen3-VL-235B(32.1%)。学到的不是特定任务模板,而是可迁移的混合动作编排能力。

三条关键结论:
1. 没有interleaved数据,online RL学不会稳定的工具调用
直接从baseline开始做online agentic RL时,TIR(工具调用率)长期偏低,训练后期也只到约15%,tool calls在大部分训练过程中接近0。模型需要先通过interleaved supervision获得工具知识和切换先验。
2. 没有Tool-Efficient Path Reward,路径不稳定
去掉R_tool和R_length后,accuracy曲线明显不稳定,在训练step 8-11左右出现下降,最终与完整ToolCUA之间有约7个点的差距。
3. Hybrid训练比pure GUI训练更有效
GUI-only pipeline从baseline 29.03%提升到agentic RL后42.05%;而GUI+Tool pipeline中,RFT已经达到38.13%,完整ToolCUA进一步达到46.85%。
案例1:LibreOffice Calc创建透视表
GUI-only方法需要选择数据范围、打开菜单、配置字段、确认参数,步骤冗长且容易出错。ToolCUA先调用工具读取workbook信息和sheet内容,识别数据结构,然后直接调用 create_pivot_table 生成透视表——用结构化工具替代脆弱的逐步GUI导航。

案例2:VS Code添加文件夹到workspace
ToolCUA先用 add_folder 工具把两个目录加入workspace。但完成后VS Code弹出了「Do you trust the authors?」对话框——这个状态不是工具调用能闭环的。ToolCUA自动切换回GUI action,点击确认按钮完成最后一步。

这正是ToolCUA的核心能力:不是用Tool替代所有GUI,也不是退回纯GUI操作,而是在真实环境里学习两种动作空间的协同与切换。
ToolCUA揭示了一个关键现象:混合动作空间中,现有CUA和强基座模型会出现明显的路径困惑。解决这个问题的核心不是给更多工具,而是教模型学会选路。