您的位置：首页 > > 教程攻略 > ai教程 >来自 Codex 官方团队的分享：如何把 Codex 用到极致

来自 Codex 官方团队的分享：如何把 Codex 用到极致

来源:互联网 更新时间:2026-05-28 14:51

对于大多数开发者而言，最初接触像 Codex 这样的 AI 智能体时，往往只将其视为一个“代码生成器”。检查代码库、生成差异对比、运行测试、提交合并请求——这确实是它的核心能力。然而，仔细想想，我们在电脑上处理的许多任务，其本质都与代码或指令流密不可分：执行终端命令、浏览网页、调用 API、导出文档、响应事件、触发自动化流程。当 Codex 的能力边界扩展到这些领域时，它的角色就悄然发生了变化，从一个纯粹的编程助手，进化成了一个能处理各类桌面工作的“全能协作者”。

近期的一些新特性，让这种转变变得更加自然和高效。现在的对话流能够记住上下文、调用多种工具、展示生成的文件，并在不同指令间无缝切换，彻底告别了以往那种“聊完即忘”的割裂感。

想要真正发挥 Codex 的全部潜力，关键在于将以下几项核心能力组合运用：

能够长期保存上下文的“持久对话流”
在需要时，灵活运用语音输入、任务干预和任务排队来掌控全局
借助浏览器、电脑操控、MCP 服务器以及各类连接器，让 Codex 的触角延伸到代码库之外
利用对话流自动化和目标驱动功能，在你离开时让工作继续推进
熟练使用侧边栏，实时审查它生成的代码、文档、幻灯片等各种成果

持久对话流

将重要的对话流“置顶”，是让这些持久工作空间随时可用的好方法。这对于那些需要反复迭代和推进的任务流来说，效率提升尤为显著，例如：

一个处理日常杂务的“个人助理”对话流
一个专门跟踪产品发布进度的对话流
一个用于文档审查和协作的对话流
一个监控外部数据或 API 状态的对话流

这些置顶的对话流并非一次性聊天窗口，而是持续演进的工作环境。随着时间推移，Codex 能记住你在此前对话中做出的决策、你的个人偏好以及项目的最新状态。如果没有这种持久性，每次开启新对话都意味着要从头开始重新交代背景。

快捷键功能让这一切变得极其便捷。通过简单的 Command-1 到 Command-9，你就能瞬间切换到任何一个保存的对话流中，继续之前的工作。

语音输入

语音输入的妙处在于，它能捕捉到你脑海中那些尚未经过文字雕琢的、最原始的想法雏形。

Codex 内置的语音输入功能，对于处理那些“心里明白，但打字描述起来很麻烦”的模糊指令特别有效。例如，当你需要对一个能自主搜索、收集信息并汇报的 AI 智能体下达指令时，几句口语化的描述就足够了。

同样，当你有一个大致方向但思路尚未完全清晰时，花上两三分钟，对着麦克风把零碎的想法“倾倒”出来，往往能获得比冥思苦想更好的起点。

录音转文字也是同理。一份未经剪辑的会议记录，或是一段口述的草案，其价值常常超过一份精炼的摘要。因为那些看似粗糙的原始记录里，往往保留了语气中的犹豫、强调的重点，以及那些转瞬即逝的灵感火花。

任务干预与排队

当语音输入与对运行中任务的直接控制相结合时，其威力才真正显现。

“任务干预”功能允许你在 AI 执行任务的过程中实时介入。例如，在让它审查一个网页时，你可以在侧边栏直接指点，并口头打断它：

“把这个元素的尺寸调小一点。”
“这两部分之间的间距看起来不太协调。”
“这里的文案有误，需要修改。”

“任务排队”则是另一种思路。它不会打断当前任务，而是将新的指令加入队列，等待后续执行。你可以这样告诉它：“先完成手头这个，然后去处理 X 任务。”

简而言之，“干预”是改变 Codex 当下正在做的事，而“排队”是安排它接下来要做的事。两者都能让你在任务执行周期内，保持一种流畅而紧密的人机协作节奏。

工具与触达范围

当一个对话流具备了连续记忆能力后，下一个关键问题便是：它能操作什么？Codex 的能力可以像同心圆一样向外层层扩展：

$browser
：在侧边栏中运行的应用内浏览器，Codex 可以在此审查网页并进行标注。
@chrome
：可以获取你 Chrome 浏览器的登录状态，用于处理那些依赖浏览器会话的工作流。
@computer
：专门用于处理需要通过图形用户界面（GUI）在电脑桌面上完成的任务。

这三者各有侧重：

$browser

适合在侧边栏内进行快速的网页审查；

@chrome

适合需要维持登录状态的浏览器内操作；而

@computer

则用于搞定那些必须在桌面环境中点击、拖拽才能完成的工作。

MCP 服务器和各类连接器进一步将这种能力延伸至你的整个工作生态系统。Slack 集成、各类 MCP 工具连接器和指南之所以重要，是因为许多关键任务在最终转化为代码之前，最初可能只是一条聊天消息、一封邮件或一个日程安排。

“技能”功能则让可重复的工作流得以固化。一旦某个流程被验证有效，你可以将其保存为“技能”，这样 Codex 下次就能直接调用，而无需重新学习整个步骤。

随时随地工作

“随时随地与 Codex 协同工作”的理念，打破了传统意义上“工作必须坐在电脑前”的束缚。一个任务可以在你配置了完整文件、权限和本地环境的 Mac 上启动，然后当你离开工位，通过手机查看时，它仍在后台持续运行。

这在利用碎片时间方面非常有用。你可以让 Codex 在电脑上执行一个耗时较长的任务，然后自己去处理其他事情。如果在外出时它需要你的输入，你可以直接用手机回复、批准下一步操作，或者在返回座位前就给出新的指示。你的本地工作环境在持续运转，而你的人身却可以自由移动。

自动化

自动化功能能让 Codex 按照预设的时间表自主工作。对于需要每天从零开始的任务，如生成日报或例行代码库检查，可以使用“定时自动化”。但如果需要在已有历史记忆的特定对话流中持续推进工作，则“对话流自动化”更为合适。

置顶对话流虽然方便，但仍需你主动访问。而“对话流自动化”则可以设置为每隔几分钟或几小时自动运行一次，持续检查条件是否满足，甚至能动态调整检查频率。

例如，你的“个人助理”对话流可以设置为每 30 分钟运行一次，检查邮件、汇总待办事项、整理会议要点。当你回到电脑前时，最耗时的信息收集和整理工作往往已经完成，你只需要做出最终的判断和决策。

对话流自动化也非常适合处理“反馈循环”。它可以默默监控你在代码合并请求、Google 文档或 Slack 评论中的反馈，在你离开时自动推进后续的修改工作。

想象一个动画制作的场景：审核人在 Slack 中发布了一个视频并给出修改意见。对话流自动化可以定时检查讨论进展，一旦有新意见，就自动触发渲染新版本，然后在原讨论串中@审核人并回复新视频。如果最终上传步骤无法通过 API 自动完成，它甚至可以调用“电脑桌面自动化”，通过模拟点击图形界面来完成最后一步。这个完整的闭环跨越了接收反馈的 Slack、负责渲染的代码库以及最终上传的桌面应用。

目标设定

当一个任务拥有清晰的终点，并且 AI 智能体能够持续朝着该终点努力时，“目标”功能的威力就完全展现出来了。

一个糟糕的目标定义可能是：“优化这个系统。”这过于模糊。而一个优秀的目标必须包含可衡量的成功标准。

例如，一位工程师想将一个内部工具从 Python 迁移到 Rust。他可以建立新的项目目录，设定一个目标，并明确终点线：“当所有现有 Python 模块的功能都在新的 Rust 模块中实现，并且全部集成测试通过时，目标达成。”

目标设定，本质上是将“持续执行”与“验证器”相结合。人类负责定义期望的结果、停止的条件，以及用于判断 Codex 是否更接近目标的信号。

有效的验证器可以包括：

一套完整的测试用例
一项基准性能测试
一个可稳定复现的 Bug
一个验证矩阵
一个必须始终成功的端到端工作流

拥有野心固然重要，但缺乏验证机制的野心，无异于空想。

侧边栏

侧边栏功能让你生成的工作成果始终与聊天窗口并排显示。无需导出文件并在不同应用间切换，直接在原位置即可进行审查。生成物可能是代码，也可能是幻灯片、PDF、网页、电子表格或其他任何内容。

它尤其擅长处理四类工作：

检查生成的文件
在文件上标注需要修改之处
操作网页界面
审查代码或文件的变更差异

侧边栏允许用户直接在其中查看 Markdown 文档、电子表格、数据表、文本文档和幻灯片。你可以在不中断现有工作流的情况下，直接进行检查、标注和修改。

你的幻灯片或 PDF 会清晰地展示在对话框旁，随时等待你的审阅。应用内浏览器则让 Codex 能够直接检查渲染后的网页，控制它，甚至响应你在网页上所做的标注。所有对网页或文件的评论都保留在这个闭环内，无需再将任务拆解为多个孤立的交接步骤。

网页既成为它的输出结果，也变成了你可直接操控的控制面板。Codex 可以创建一个页面，在侧边栏打开它，自行检查、修复问题，并在同一处进行迭代优化。

以下场景与侧边栏配合使用效果尤佳：

使用单个 index.html 文件进行轻量级静态演示
运行 Storybook 来审查 UI 组件
使用 Remotion Studio 制作代码生成的动画
在浏览器中放映的幻灯片演示
用于数据分析流程的数据应用

一个简单的 index.html 文件就能变成一个有趣的交互式应用，甚至无需搭建服务器。此外，对话流自动化还可以随时间悄悄更新这些静态文件，确保你回来时总能见到最新的进展。

共享记忆

当长时间运行的对话流能够突破单次会话的界限，实现记忆共享时，其效用将发生质变。

一个相对稳健的做法是将这些持久对话流“锚定”在一个 Obsidian 知识库中。本质上，这就是一个存储纯文本文件的文件夹。它结构简单，便于随时查看、编辑、移动，且能长期保存。团队可以将这个文件夹放在任何偏好的云存储服务中，如 Git、Dropbox、Google Drive 或其他同步工具。

你的知识库结构可能如下所示：

vault/
├── people/
├── projects/
├── decisions/
├── todos/
└── daily/

在最外层目录，你可以放置一个 AGENTS.md 文件。在这里，你可以为 Codex 制定规则：当它了解到关于人员、项目、决策或待办事项的新信息时，应如何更新这个知识库。

关键在于，不要僵化地照搬某一种结构。你需要“教导”你的 AI 智能体：持久的上下文应该存放在哪里，哪些上下文值得保留，以及何时不应随意修改文件。

一份实用的 AGENTS.md 指南可以这样写：

将 ~/vault 视为长期工作记忆区。
尽量保持笔记的组织性，避免碎片化记录。
准确地将待办事项、人员、项目、每日总结和草稿分类存放。
妥善保存已做出的决定、遇到的障碍、负责人、日期以及有用链接。
如果没有实质性的新进展，不要随意修改知识库中的文件。

代码库用于存储代码。而这个知识库，则用于存储不断滚动的上下文：涉及哪些人、更改了什么、卡点在何处、后续由谁跟进，以及那些如果在两次对话间丢失便会彻底消失的细节。

重要的上下文绝不应仅仅锁死在某一次聊天的历史记录中。将它们写下来，放在下一个对话流能够立即获取的地方。

Codex 自身也在“设置 > 个性化 > 记忆”中提供了官方的记忆功能。它类似于系统自带的本地笔记本，用于记住你的个人偏好、常用工作流以及常犯的错误。不过，这个功能旨在辅助你明确写下的上下文，而非取代它。Chronicle 记忆组件也遵循类似思路，它能帮助 Codex 从你最近的屏幕活动中提取并构建记忆。

从代码向外延伸

尽管 Codex 的核心依然围绕着代码，但如今，与代码相关的众多外围工作都能在同一套系统内完成：无论是通过 MCP 服务器、网页界面、电脑桌面控制、对话流自动化，还是那些可以在侧边栏直接审查的生成文件。

这彻底改变了我们与它互动的方式。“任务干预”允许我们在中途修正方向；“任务排队”帮助我们规划下一步；“对话流自动化”让系统在我们离开时仍能运转；而“目标设定”则绘制了清晰的终点线，让 Codex 知道持续努力的方向。

如今的 Codex 已经能够承担起一个完整的工作流：从接收指令、执行任务，到最终产出物的审查。即使这些工作早已超出了传统代码库的范畴，它也能应对自如。

来自 Codex 官方团队的分享：如何把 Codex 用到极致

持久对话流

语音输入

任务干预与排队

工具与触达范围

$browser

@chrome

@computer

$browser

@chrome

@computer

随时随地工作

自动化

目标设定

侧边栏

共享记忆

从代码向外延伸

热门资讯

热门手游

相关攻略

热门专题