详解 OpenAI Codex 的 Computer Use、Chrome 插件、应用内浏览器三种操作模式,附场景选择指南


详解 OpenAI Codex 的 Computer Use、Chrome 插件、应用内浏览器三种操作模式,附场景选择指南
OpenAI 工程师 Jason Liu 分享了一个真实案例:网购快递被偷,联系客服预计等待 25 分钟。他把这件事交给 Codex 处理,指令是"每 5 分钟检查一次聊天窗口,如果客服上线就改成每分钟检查一次,尽量帮我完成退款"。然后他去洗了个澡,回来时退款已经到账。整个过程没写一行代码。这篇文章详解 Codex 目前的三种电脑操作能力,以及什么场景该用哪一种。
Codex 目前有三种"操作电脑"的模式,它们不是简单的功能重复,而是 OpenAI 为 Agent 设计的一套行动权限体系——从最宽到最窄,各有适用场景。

核心原则:能用插件就不要点网页,能直接调用 API 就别让 AI 用视觉操作界面。
Computer Use 是三种模式中能力最大的。它能看屏幕、操作几乎任何图形界面、用键盘和菜单,跟你授权过的任何 App 打交道——哪怕这个软件没有 API。

Codex 通过 Computer Use 直接自动编辑备忘录。
优点:功能最全面,不依赖 API,纯靠"看屏幕判断该点哪"。
缺点:慢。它得先看清界面、判断点哪、等 App 反应、再看下一屏,这个视觉循环相当耗时。
适合场景:
提示:一次只给它一个明确的 App 或流程。涉及钱、账户、密码、隐私的操作,务必守在旁边。它能在后台安静工作,你该干嘛干嘛,回头检查结果即可。
Chrome 插件接管的是你已经登录好的浏览器。Cookie、配置、登录态、开着的标签页,它都能用。
Codex 使用 Chrome 浏览器汇总 X 首页的资讯。
关键区别:因为带着你的登录态,网站会把它的操作当成你本人在点击、提交、发消息。能力更强,风险也更大。
Jason Liu 分享了一个实际案例:他把一个已打开的在线作曲页面交给 Codex,说"把音乐弄得更有意思些"。Codex 读完整首曲子,重写和声、改掉四分钟的曲式、调了速度、存档,全程没满屏乱找按钮。
适合场景:
这是权限最窄的模式。它在 Codex 的对话里直接渲染页面,你和 AI 看的是同一个页面。
最大特点:隔离。不使用你的浏览器配置、不带 Cookie、没有插件、没有登录态。
最有用的是批注功能:你可以直接点某个元素或圈出一块区域,留一句话说"这个层级反了"或"这块别做成卡片",Codex 会收到带截图和元素上下文的反馈,改完再给你看下一版。
适合场景:
提示:应用内浏览器处理不了 Google 登录、passkey 等需要浏览器插件的网站。如果你的任务需要登录态,请用 Chrome 插件模式。
| 需求 | 推荐模式 |
|---|---|
| 操作没有 API 的桌面软件 | Computer Use |
| 需要登录态的网页操作 | Chrome 插件 |
| 开发调试、审查本地页面 | 应用内浏览器 |
| 跨多个 App 的复杂流程 | Computer Use |
| 需要日复一日重复执行的任务 | Chrome 插件 |
在 macOS 上,任何场景同时按下空格键左右两边两个 Command 键,会自动把窗口截图和上下文信息一起发给 Codex。Appshots 负责"指方向",三种操作模式负责"动手干活"。
OpenAI 的最佳实践指向一个反直觉的结论:像人一样点击是最慢、最脆弱、信任成本最高的方式。真正高效的 Agent,应该尽量用结构化接口完成任务,视觉控制只是最后的兜底手段。