ToolCUA：让Agent学会在GUI和工具之间正确选路

给Agent同时接上GUI操作和工具调用，准确率反而下降了——该点按钮的时候去调API，该调API的时候又死磕菜单，两头乱窜。复旦大学和通义实验室MobileAgent团队联合开源的 ToolCUA，专门解决这个问题：让模型学会什么时候走GUI，什么时候切工具，什么时候不该调工具。

ToolCUA-8B在OSWorld-MCP上拿到46.85%准确率，超过Claude-4-Sonnet的43.54%，逼近Claude-4.5-Sonnet的48.35%。代码和模型权重已全面开源。

问题：混合动作空间下的路径困惑

传统CUA（Computer Use Agent）主要依赖GUI操作——点击、输入、拖拽、滚动。泛化性强，但步骤长、误差容易累积。而工具调用（Tool Calls）往往更高效、更精确，比如在LibreOffice里批量处理表格，一个API调用可以替代一串冗长的菜单点击。

看起来最自然的方案是让Agent同时拥有GUI和Tool。但实验发现一个反直觉的事实：

模型	无工具准确率	有工具准确率	变化
Qwen3VL-8B	29.0%	28.2%	-0.8%
Qwen3VL-235B	41.1%	38.1%	-3.0%
Claude-4-Sonnet	47.7%	43.5%	-4.2%
Claude-4.5-Sonnet	61.9%	48.4%	-13.5%

模型越强，加入工具后准确率下降越严重。Claude-4.5-Sonnet甚至掉了13.5个百分点。问题不是有没有工具，而是模型在GUI和Tool之间不会选路。

两阶段训练方案

第一阶段：数据合成与Tool-Bootstrapped RFT

高质量interleaved GUI-Tool轨迹数据非常稀缺。ToolCUA的方案是：把现有的GUI-only数据盘活，自动合成混合轨迹。

整个pipeline分三步：

从GUI轨迹中抽象工具库：分析每条GUI轨迹的任务目标、动作序列和截图描述，从真实操作流程中抽象出可调用的工具。比如从Chrome设置流程中抽象出 chrome_open_language_settings。
生成等价的工具轨迹：给定合成工具库和原始GUI轨迹，生成功能等价的tool-only轨迹，并通过next-state grounding验证工具步骤和状态变化一致。
生成交错混合轨迹：不简单地把所有GUI操作替换成工具，而是随机采样部分工具调用替换回对应GUI子序列，形成GUI与Tool交错的多条轨迹。这让模型看到不同决策边界下的切换点。

最终产出约4k个unique tools、180k steps的warmup SFT数据和5k条critical steps的single-turn RL数据。

第二阶段：Online Agentic RL

第一阶段解决的是「会用工具」，第二阶段解决的是「在真实环境中学会trajectory-level的路径选择」。

核心是 Tool-Efficient Path Reward，包含两个专项奖励：

R_tool（工具适当性奖励）：奖励的不是工具调用更多，而是精确的行为——适合工具的任务确实用了工具，不适合工具的任务没有乱用工具。
R_length（路径效率奖励）：做group-relative comparison，如果某条成功轨迹比组内平均更短，给线性bonus。鼓励模型发现更高效的执行路径。

关键设计：这两项奖励只在成功轨迹上激活，避免模型从失败执行里学到错误偏好。

评测结果

OSWorld-MCP 主评测

模型	Accuracy	ACS（平均步数）
Qwen3-VL-8B（基线）	28.23%	19.34
GUI-Owl-1.5-8B	43.84%	-
Claude-4-Sonnet	43.54%	-
ToolCUA-8B	46.85%	14.93
Claude-4.5-Sonnet	48.35%	-

ToolCUA-8B的ACS仅为14.93 steps，是所有模型里最低的。不只是完成了更多任务，也学会了用更短路径完成任务。相比基线，相对提升约66%。

跨平台迁移

在WindowsAgentArena上，尽管训练数据全部来自Linux桌面环境，ToolCUA在unseen Windows桌面应用上达到33.8%准确率，超过Qwen3-VL-8B（26.4%）、Qwen3-VL-32B（30.9%）和Qwen3-VL-235B（32.1%）。学到的不是特定任务模板，而是可迁移的混合动作编排能力。

消融实验：为什么ToolCUA真正学会了选路

三条关键结论：

1. 没有interleaved数据，online RL学不会稳定的工具调用

直接从baseline开始做online agentic RL时，TIR（工具调用率）长期偏低，训练后期也只到约15%，tool calls在大部分训练过程中接近0。模型需要先通过interleaved supervision获得工具知识和切换先验。

2. 没有Tool-Efficient Path Reward，路径不稳定

去掉R_tool和R_length后，accuracy曲线明显不稳定，在训练step 8-11左右出现下降，最终与完整ToolCUA之间有约7个点的差距。

3. Hybrid训练比pure GUI训练更有效

GUI-only pipeline从baseline 29.03%提升到agentic RL后42.05%；而GUI+Tool pipeline中，RFT已经达到38.13%，完整ToolCUA进一步达到46.85%。

实际案例：GUI与工具的协同

案例1：LibreOffice Calc创建透视表

GUI-only方法需要选择数据范围、打开菜单、配置字段、确认参数，步骤冗长且容易出错。ToolCUA先调用工具读取workbook信息和sheet内容，识别数据结构，然后直接调用 create_pivot_table 生成透视表——用结构化工具替代脆弱的逐步GUI导航。

案例2：VS Code添加文件夹到workspace

ToolCUA先用 add_folder 工具把两个目录加入workspace。但完成后VS Code弹出了「Do you trust the authors?」对话框——这个状态不是工具调用能闭环的。ToolCUA自动切换回GUI action，点击确认按钮完成最后一步。

这正是ToolCUA的核心能力：不是用Tool替代所有GUI，也不是退回纯GUI操作，而是在真实环境里学习两种动作空间的协同与切换。

获取方式

项目网站：https://x-plug.github.io/ToolCUA/
代码仓库：https://github.com/X-PLUG/ToolCUA
模型权重：https://huggingface.co/mPLUG/ToolCUA-8B
Mobile-Agent系列：https://github.com/X-PLUG/MobileAgent

适合谁用

CUA/Agent研究者：研究Computer Use Agent、GUI自动化的学术和工程团队
桌面自动化开发者：需要在真实桌面环境中实现GUI+工具混合操作的工程师
开源模型用户：希望用8B参数的小模型实现接近Claude-4.5-Sonnet级别桌面操作效果的开发者

ToolCUA揭示了一个关键现象：混合动作空间中，现有CUA和强基座模型会出现明显的路径困惑。解决这个问题的核心不是给更多工具，而是教模型学会选路。