Codex 电脑操作实战：三种模式与使用指南

OpenAI 工程师 Jason Liu 分享了一个真实案例：网购快递被偷，联系客服预计等待 25 分钟。他把这件事交给 Codex 处理，指令是"每 5 分钟检查一次聊天窗口，如果客服上线就改成每分钟检查一次，尽量帮我完成退款"。然后他去洗了个澡，回来时退款已经到账。整个过程没写一行代码。这篇文章详解 Codex 目前的三种电脑操作能力，以及什么场景该用哪一种。

Codex 的三层权限体系

Codex 目前有三种"操作电脑"的模式，它们不是简单的功能重复，而是 OpenAI 为 Agent 设计的一套行动权限体系——从最宽到最窄，各有适用场景。

三种操作模式的权限体系

核心原则：能用插件就不要点网页，能直接调用 API 就别让 AI 用视觉操作界面。

模式一：Computer Use（最宽的权限）

Computer Use 是三种模式中能力最大的。它能看屏幕、操作几乎任何图形界面、用键盘和菜单，跟你授权过的任何 App 打交道——哪怕这个软件没有 API。

Codex 用 Computer Use 编辑备忘录

Codex 通过 Computer Use 直接自动编辑备忘录。

优点：功能最全面，不依赖 API，纯靠"看屏幕判断该点哪"。

缺点：慢。它得先看清界面、判断点哪、等 App 反应、再看下一屏，这个视觉循环相当耗时。

适合场景：

Spotify 等原生桌面应用，或银行/金融类应用（没有 API 的软件）
iOS 模拟器、iPhone 镜像等纯 GUI 流程
系统或应用程序设置
在多个应用程序之间切换的工作流程
结构化集成中缺少某个步骤时的补位

提示：一次只给它一个明确的 App 或流程。涉及钱、账户、密码、隐私的操作，务必守在旁边。它能在后台安静工作，你该干嘛干嘛，回头检查结果即可。

模式二：Chrome 插件（带着你的身份）

Chrome 插件接管的是你已经登录好的浏览器。Cookie、配置、登录态、开着的标签页，它都能用。

Codex 使用 Chrome 浏览器汇总 X 首页的资讯。

关键区别：因为带着你的登录态，网站会把它的操作当成你本人在点击、提交、发消息。能力更强，风险也更大。

Jason Liu 分享了一个实际案例：他把一个已打开的在线作曲页面交给 Codex，说"把音乐弄得更有意思些"。Codex 读完整首曲子，重写和声、改掉四分钟的曲式、调了速度、存档，全程没满屏乱找按钮。

适合场景：

Gmail、LinkedIn 等需要登录的网页应用
Salesforce 或支持控制台
内部仪表盘
跨多个网站的深度研究
依赖你账户权限的表单操作

模式三：应用内浏览器（干净隔离）

这是权限最窄的模式。它在 Codex 的对话里直接渲染页面，你和 AI 看的是同一个页面。

最大特点：隔离。不使用你的浏览器配置、不带 Cookie、没有插件、没有登录态。

最有用的是批注功能：你可以直接点某个元素或圈出一块区域，留一句话说"这个层级反了"或"这块别做成卡片"，Codex 会收到带截图和元素上下文的反馈，改完再给你看下一版。

适合场景：

本地开发服务器调试
文件支持的预览
无需登录的公共页面
重现视觉 Bug
检查响应式布局
对页面留下元素级的设计反馈

提示：应用内浏览器处理不了 Google 登录、passkey 等需要浏览器插件的网站。如果你的任务需要登录态，请用 Chrome 插件模式。

决策流程图

需求	推荐模式
操作没有 API 的桌面软件	Computer Use
需要登录态的网页操作	Chrome 插件
开发调试、审查本地页面	应用内浏览器
跨多个 App 的复杂流程	Computer Use
需要日复一日重复执行的任务	Chrome 插件

额外功能：Appshots

在 macOS 上，任何场景同时按下空格键左右两边两个 Command 键，会自动把窗口截图和上下文信息一起发给 Codex。Appshots 负责"指方向"，三种操作模式负责"动手干活"。

OpenAI 的最佳实践指向一个反直觉的结论：像人一样点击是最慢、最脆弱、信任成本最高的方式。真正高效的 Agent，应该尽量用结构化接口完成任务，视觉控制只是最后的兜底手段。

Codex 的三层权限体系

Codex 目前有三种"操作电脑"的模式，它们不是简单的功能重复，而是 OpenAI 为 Agent 设计的一套行动权限体系——从最宽到最窄，各有适用场景。

三种操作模式的权限体系

核心原则：能用插件就不要点网页，能直接调用 API 就别让 AI 用视觉操作界面。

模式一：Computer Use（最宽的权限）

Computer Use 是三种模式中能力最大的。它能看屏幕、操作几乎任何图形界面、用键盘和菜单，跟你授权过的任何 App 打交道——哪怕这个软件没有 API。

Codex 用 Computer Use 编辑备忘录

Codex 通过 Computer Use 直接自动编辑备忘录。

优点：功能最全面，不依赖 API，纯靠"看屏幕判断该点哪"。

缺点：慢。它得先看清界面、判断点哪、等 App 反应、再看下一屏，这个视觉循环相当耗时。

适合场景：

Spotify 等原生桌面应用，或银行/金融类应用（没有 API 的软件）
iOS 模拟器、iPhone 镜像等纯 GUI 流程
系统或应用程序设置
在多个应用程序之间切换的工作流程
结构化集成中缺少某个步骤时的补位

提示：一次只给它一个明确的 App 或流程。涉及钱、账户、密码、隐私的操作，务必守在旁边。它能在后台安静工作，你该干嘛干嘛，回头检查结果即可。

模式二：Chrome 插件（带着你的身份）

Chrome 插件接管的是你已经登录好的浏览器。Cookie、配置、登录态、开着的标签页，它都能用。

Codex 使用 Chrome 浏览器汇总 X 首页的资讯。

关键区别：因为带着你的登录态，网站会把它的操作当成你本人在点击、提交、发消息。能力更强，风险也更大。

适合场景：

Gmail、LinkedIn 等需要登录的网页应用
Salesforce 或支持控制台
内部仪表盘
跨多个网站的深度研究
依赖你账户权限的表单操作

模式三：应用内浏览器（干净隔离）

这是权限最窄的模式。它在 Codex 的对话里直接渲染页面，你和 AI 看的是同一个页面。

最大特点：隔离。不使用你的浏览器配置、不带 Cookie、没有插件、没有登录态。

适合场景：

本地开发服务器调试
文件支持的预览
无需登录的公共页面
重现视觉 Bug
检查响应式布局
对页面留下元素级的设计反馈

提示：应用内浏览器处理不了 Google 登录、passkey 等需要浏览器插件的网站。如果你的任务需要登录态，请用 Chrome 插件模式。

决策流程图

需求	推荐模式
操作没有 API 的桌面软件	Computer Use
需要登录态的网页操作	Chrome 插件
开发调试、审查本地页面	应用内浏览器
跨多个 App 的复杂流程	Computer Use
需要日复一日重复执行的任务	Chrome 插件

全部

AI教程

AI产品

AI资源

Codex 电脑操作实战：三种模式与使用指南

Codex 电脑操作实战：三种模式与使用指南

Codex 的三层权限体系

模式一：Computer Use（最宽的权限）

模式二：Chrome 插件（带着你的身份）

模式三：应用内浏览器（干净隔离）

决策流程图

额外功能：Appshots

作者

分类

相关文章

OpenAI Codex 开源模式：一行配置接入本地模型

GenShield：AI 生图检测+修复一体化开源框架

Claude Cowork 额度翻倍实操指南：7大工作场景上手教程

Codex 电脑操作实战：三种模式与使用指南

Codex 电脑操作实战：三种模式与使用指南

Codex 的三层权限体系

模式一：Computer Use（最宽的权限）

模式二：Chrome 插件（带着你的身份）

模式三：应用内浏览器（干净隔离）

决策流程图

额外功能：Appshots

作者

分类

相关文章

OpenAI Codex 开源模式：一行配置接入本地模型

GenShield：AI 生图检测+修复一体化开源框架

Claude Cowork 额度翻倍实操指南：7大工作场景上手教程