OpenClaw 的 Computer Use 工具 Peekaboo v3 正式发布,让 AI 不只会回消息,还能看屏幕、点按钮、操作真实桌面应用。


OpenClaw 的 Computer Use 工具 Peekaboo v3 正式发布,让 AI 不只会回消息,还能看屏幕、点按钮、操作真实桌面应用。
OpenClaw 是一个把 AI Agent 放进各种消息渠道(Telegram、Slack、iMessage、WhatsApp)的开源项目。但它一直有个短板:Agent 只能在聊天框里给建议,碰不到真实桌面。Peekaboo v3 的发布补上了这最缺的一环 -- 它让 AI 能截图、识别窗口、读 UI 元素、找按钮、点、打字、滚屏、切应用。OpenClaw 从"会聊天"变成了"会干活"。

对普通用户来说,Peekaboo 最好理解成一套 macOS 自动化工具。它能:
传统自动化脚本最怕环境变化 -- 按钮位置一换、窗口被遮挡、弹窗突然出现,脚本就直接崩溃。Peekaboo 的价值在于把桌面像素变成一张带结构的"地图",AI 看到的不只是一片像素,而是控件、窗口、文本、按钮之间的关系。
Peekaboo 并非横空出世,它在去年 6 月就已上线初版。但过去模型的视觉能力和 Computer-Use 能力还没到位,AI 操作桌面就像第一次摸触控板的人 -- 动作大、心里虚。
最近的变化是:模型视觉能力和 Computer-Use 能力都过了临界点。单项进步(多识别一点、多点准一点)叠加起来,Agent 开始接近可持续跑流程的状态。这时,底层自动化工具的价值被放大 -- 模型再聪明,也需要稳定的输入和执行。

OpenClaw 过去解决的是 连接问题 -- 人从哪里发消息、消息怎么进来、Agent 怎么处理、结果怎么回去。
Peekaboo 解决的是 执行问题 -- Agent 接到任务后,能不能看到真实桌面、找到可操作对象、一步步推进。
两件事合在一起,才接近普通人想象中的 AI 助手:
| 组件 | 负责什么 |
|---|---|
| OpenClaw | 谁来找我、要做什么、交给哪个 Agent |
| Peekaboo | 屏幕上有什么、按钮在哪里、这一步该往哪操作 |
加上 Peekaboo 后,OpenClaw 不再只是多渠道消息网关,而是一个能在本机环境里真正办事的系统 -- 能登录机器、看屏幕、查问题、点配置、跑流程。
社区里已经有人用 Peekaboo 在浏览器里驱动远程 iOS 模拟器。流程大概是:
关键不只是"AI 看懂一张图",而是后半段:看懂之后要注册状态、选择目标、执行点击、等待反馈、根据新截图继续走。每一步都可以被记录下来,这才是 Agent 从玩具走向工具的分界线。
Peekaboo v3 正式版发布后,更新节奏明显加速:一天之内连推 v3.1.0、v3.1.1、v3.1.2 三个版本。更新内容偏向工程细节:模型目录、工具 schema、打包产物、版本标记、捕获路径、daemon 调度等。这些"脏活"做得越多,用户越少感知到它 -- 好工具的最高境界是没存在感。

火山引擎推出 Agent Plan,将字节自研模型、主流三方模型和联网搜索等工具打包订阅,适配 Claude Code、OpenClaw 等 Agent 平台。

开源 PPT Skill 新增瑞士国际主义风格、GPT-Image 2.0 自动配图和多平台封面生成,一个对话搞定从大纲到发布的全流程。

Mureka V9 凭借 MusiCoT 思维链架构实现从生成即可发布的音乐质量,Sondo 全量切换后业务翻倍增长,API 正式开放。