Peekaboo v3 发布：OpenClaw 终于能操作你的桌面了

OpenClaw 是一个把 AI Agent 放进各种消息渠道（Telegram、Slack、iMessage、WhatsApp）的开源项目。但它一直有个短板：Agent 只能在聊天框里给建议，碰不到真实桌面。Peekaboo v3 的发布补上了这最缺的一环 -- 它让 AI 能截图、识别窗口、读 UI 元素、找按钮、点、打字、滚屏、切应用。OpenClaw 从"会聊天"变成了"会干活"。

Peekaboo v3 发布

Peekaboo 是什么

对普通用户来说，Peekaboo 最好理解成一套 macOS 自动化工具。它能：

截图并识别窗口层级
读取 UI 元素（按钮、文本、输入框）
找到目标并执行点击、输入、滚动
切换应用、操作菜单
把桌面变成 Agent 能理解的"带结构的工作场域"

传统自动化脚本最怕环境变化 -- 按钮位置一换、窗口被遮挡、弹窗突然出现，脚本就直接崩溃。Peekaboo 的价值在于把桌面像素变成一张带结构的"地图"，AI 看到的不只是一片像素，而是控件、窗口、文本、按钮之间的关系。

为什么现在才关键

Peekaboo 并非横空出世，它在去年 6 月就已上线初版。但过去模型的视觉能力和 Computer-Use 能力还没到位，AI 操作桌面就像第一次摸触控板的人 -- 动作大、心里虚。

最近的变化是：模型视觉能力和 Computer-Use 能力都过了临界点。单项进步（多识别一点、多点准一点）叠加起来，Agent 开始接近可持续跑流程的状态。这时，底层自动化工具的价值被放大 -- 模型再聪明，也需要稳定的输入和执行。

Peekaboo 工作原理

与 OpenClaw 的协同

OpenClaw 过去解决的是 连接问题 -- 人从哪里发消息、消息怎么进来、Agent 怎么处理、结果怎么回去。

Peekaboo 解决的是 执行问题 -- Agent 接到任务后，能不能看到真实桌面、找到可操作对象、一步步推进。

两件事合在一起，才接近普通人想象中的 AI 助手：

组件	负责什么
OpenClaw	谁来找我、要做什么、交给哪个 Agent
Peekaboo	屏幕上有什么、按钮在哪里、这一步该往哪操作

加上 Peekaboo 后，OpenClaw 不再只是多渠道消息网关，而是一个能在本机环境里真正办事的系统 -- 能登录机器、看屏幕、查问题、点配置、跑流程。

实际能力演示

社区里已经有人用 Peekaboo 在浏览器里驱动远程 iOS 模拟器。流程大概是：

Peekaboo 分析移动应用截图，识别出页面上的所有 UI 元素
注册这个屏幕为一个"状态"
点击目标按钮（如 "Create Your Vault"）
等待界面变化，再截图
根据新截图继续探索

关键不只是"AI 看懂一张图"，而是后半段：看懂之后要注册状态、选择目标、执行点击、等待反馈、根据新截图继续走。每一步都可以被记录下来，这才是 Agent 从玩具走向工具的分界线。

更新节奏

Peekaboo v3 正式版发布后，更新节奏明显加速：一天之内连推 v3.1.0、v3.1.1、v3.1.2 三个版本。更新内容偏向工程细节：模型目录、工具 schema、打包产物、版本标记、捕获路径、daemon 调度等。这些"脏活"做得越多，用户越少感知到它 -- 好工具的最高境界是没存在感。