OpenClaw 的 Computer Use 工具 Peekaboo v3 正式发布,让 AI 不只会回消息,还能看屏幕、点按钮、操作真实桌面应用。


OpenClaw 的 Computer Use 工具 Peekaboo v3 正式发布,让 AI 不只会回消息,还能看屏幕、点按钮、操作真实桌面应用。
OpenClaw 是一个把 AI Agent 放进各种消息渠道(Telegram、Slack、iMessage、WhatsApp)的开源项目。但它一直有个短板:Agent 只能在聊天框里给建议,碰不到真实桌面。Peekaboo v3 的发布补上了这最缺的一环 -- 它让 AI 能截图、识别窗口、读 UI 元素、找按钮、点、打字、滚屏、切应用。OpenClaw 从"会聊天"变成了"会干活"。

对普通用户来说,Peekaboo 最好理解成一套 macOS 自动化工具。它能:
传统自动化脚本最怕环境变化 -- 按钮位置一换、窗口被遮挡、弹窗突然出现,脚本就直接崩溃。Peekaboo 的价值在于把桌面像素变成一张带结构的"地图",AI 看到的不只是一片像素,而是控件、窗口、文本、按钮之间的关系。
Peekaboo 并非横空出世,它在去年 6 月就已上线初版。但过去模型的视觉能力和 Computer-Use 能力还没到位,AI 操作桌面就像第一次摸触控板的人 -- 动作大、心里虚。
最近的变化是:模型视觉能力和 Computer-Use 能力都过了临界点。单项进步(多识别一点、多点准一点)叠加起来,Agent 开始接近可持续跑流程的状态。这时,底层自动化工具的价值被放大 -- 模型再聪明,也需要稳定的输入和执行。

OpenClaw 过去解决的是 连接问题 -- 人从哪里发消息、消息怎么进来、Agent 怎么处理、结果怎么回去。
Peekaboo 解决的是 执行问题 -- Agent 接到任务后,能不能看到真实桌面、找到可操作对象、一步步推进。
两件事合在一起,才接近普通人想象中的 AI 助手:
| 组件 | 负责什么 |
|---|---|
| OpenClaw | 谁来找我、要做什么、交给哪个 Agent |
| Peekaboo | 屏幕上有什么、按钮在哪里、这一步该往哪操作 |
加上 Peekaboo 后,OpenClaw 不再只是多渠道消息网关,而是一个能在本机环境里真正办事的系统 -- 能登录机器、看屏幕、查问题、点配置、跑流程。
社区里已经有人用 Peekaboo 在浏览器里驱动远程 iOS 模拟器。流程大概是:
关键不只是"AI 看懂一张图",而是后半段:看懂之后要注册状态、选择目标、执行点击、等待反馈、根据新截图继续走。每一步都可以被记录下来,这才是 Agent 从玩具走向工具的分界线。
Peekaboo v3 正式版发布后,更新节奏明显加速:一天之内连推 v3.1.0、v3.1.1、v3.1.2 三个版本。更新内容偏向工程细节:模型目录、工具 schema、打包产物、版本标记、捕获路径、daemon 调度等。这些"脏活"做得越多,用户越少感知到它 -- 好工具的最高境界是没存在感。

火山引擎新基模豆包 Seed 2.1 Pro 实测,Agent Coding 跑通多级联动开发,多模态拍照识鱼精准到拉丁名,价格比 Claude Opus 低近 80%。

人大高瓴学院发布 DeNovoSWE,首个面向「从文档生成完整仓库」的长程训练集,含 4818 个真实任务实例,Qwen3-30B 在 BeyondSWE-Doc2Repo 上从 5.8% 提升到 47.2%。

百度搭子 DuMate 是国产通用办公智能体,支持 Mac/Windows/移动端,通过「提需求→授权→执行→交付」链路连接飞书、Chrome、携程等应用,并支持定时自动化任务。