来源:互联网 更新时间:2026-05-31 15:01
大型语言模型(LLM)智能体在生产环境中的快速部署,揭示了一个反复出现的规律:任务执行的可靠性,往往更多地取决于包裹模型的基础设施层——也就是智能体执行套件(Agent Execution Harness),而非底层的模型本身。这篇读书笔记,正是围绕这一核心洞察展开的梳理。
一张图表便可以清晰展示大语言模型(LLM)应用开发从早期的“提示词调优”向复杂的“系统工程”演进的三个阶段。这不仅仅是技术的堆叠,更代表了优化重心的根本转移。
到了 Harness Engineering 阶段,本质上是在构建一个围绕 LLM 的“外骨骼”或“护栏”。这个外层基础设施(Harness)决定了 Agent 在真实世界中的可靠性。它通过引入传统的软件工程原则——如审计、权限控制、异常处理和流程编排——来弥补概率模型在确定性任务上的天然缺陷。

| 阶段 | 关注点 | 本质/视角 | 核心优化目标/关键特征 | 进步/局限/意义 | 关键组件 | 组件功能描述 |
|---|---|---|---|---|---|---|
| 提示工程(Prompt Engineering) | 模型输入(Model Input) | “单次调用”的视角 | 单次调用优化:优化模型的输入。通过精妙的指令、角色扮演和示例(Few-shot),让模型在一次交互中给出完美答案。 | 局限:高度依赖模型本身的即时表现,一旦任务变长或环境变复杂,仅靠提示词很难维持稳定性。 | 指令与角色 | 定义任务、角色设定和约束条件 |
| 示例与格式 | 提供Few-shot示例和输出格式规范 | |||||
| 提示迭代 | 根据观察到的失败案例优化措辞 | |||||
| 上下文工程(Context Engineering) | 模型看到什么(What the model sees) | “多步”的视角 | 多步上下文优化:优化模型看到的内容。重点管理信息流:在海量数据中检索相关信息、记忆之前的对话、剔除干扰项(压缩)。 | 进步:解决了模型“知识有限”和“遗忘”的问题。 局限:仍未解决模型“执行力”和“安全性”的问题。 |
检索与加载 | 引入相关文件、文档和工具输出结果 |
| 记忆与状态 | 追踪进度、决策过程和之前的步骤 | |||||
| 压缩与过滤 | 保留有用的上下文,移除过时信息 | |||||
| 套件/执行框架工程(Harness Engineering) | 模型如何运行(How the model runs) | “系统级”的视角 | 系统级优化:优化模型如何运行。 1. 工具与环境:强调安全沙箱和标准化接口。 2. 编排:引入逻辑控制流(重试、循环、分支)。 3. 验证与治理:检查结果正确性,执行权限管控与合规审计。 |
意义:这是当前最前沿的工程范式,将LLM视为需严格管控的“计算核心”,弥补概率模型在确定性任务上的缺陷。 | 工具与环境 | 安全地运行操作并暴露可调用的工具 |
| 编排 | 计划、行动、验证、重试或委托 | |||||
| 验证与评估 | 追踪行为、衡量成本并检查结果 | |||||
| 治理与安全 | 强制执行权限、审批和审计规则 |

ETCLOVG 是作者提出的一个七层分类法,用于系统化地构建智能体执行套件。这七个层面将“可观测性”和“治理”提升为独立的架构关注点,填补了以往框架的空白。
| 层级代码 | 核心层面(英文/中文) | 核心模块组成 | 深度解读与工程价值 |
|---|---|---|---|
| E | Execution Environment 执行环境 |
1. 通用托管沙箱 2. 计算机使用智能体基础设施 3. 代码专用沙箱 4. 框架集成运行时 5. 浏览器评估环境 6. 操作系统级权限沙箱 7. 沙箱抽象层 |
智能体的“物理底座”。通过多层级的隔离机制(从 OS 级到浏览器级)确保模型生成的代码或指令在安全、可控的容器中执行,防止对宿主系统造成破坏,是连接数字世界与物理资源的边界。 |
| T | Tool Interface 工具接口 |
1. 协议与接口标准 2. 工具描述、发现与选择 3. 工具增强训练与集成 4. 可扩展性与会话管理 |
智能体的“手脚”。不仅涉及工具的暴露,更涉及标准化。优秀的工具接口层能屏蔽底层复杂性,让模型专注于逻辑决策,同时处理参数校验、返回值格式化以及大规模并发下的会话管理。 |
| C | Context Management 上下文管理 |
1. 短期活跃上下文窗口 2. 中期会话状态和跨运行持久化 3. 长期持久记忆系统 4. 长视距上下文技术 5. 上下文漂移与限制 |
智能体的“短期与长期记忆”。解决长任务中的注意力分散和上下文窗口限制问题。通过动态修剪无关信息(如短期窗口管理)和跨会话的状态保持,确保模型始终聚焦于当前任务的关键线索。 |
| L | Lifecycle / Orchestration 生命周期 / 编排 |
1. 单智能体内部循环 2. 多智能体编排模式 3. 全生命周期任务流水线 |
智能体的“大脑皮层”或“操作系统内核”。将非线性的模型推理转化为确定性的工程流程。通过标准化的循环(Loop)和流水线(Pipeline)设计,管理任务的规划、执行、验证及多智能体协作,保证系统的鲁棒性。 |
| O | Observability & Operations 可观测性与运维 |
1. 追踪与监控平台 2. 智能体专用运维平台 3. 成本追踪与优化 4. 可靠性工程 5. 统一可观测性 |
智能体的“仪表盘”与“体检中心”。在概率模型的不确定性中建立确定性监控。不仅关注传统的系统指标,更侧重于追踪智能体的推理路径、Token 消耗成本以及行为可靠性,为持续优化提供数据支撑。 |
| V | Verification & Evaluation 验证与评估 |
1. 任务与基准锚定 2. 执行前就绪验证 3. 受控执行与痕迹捕获 4. 多级判断与故障归因 5. 持续回归与部署反馈 |
智能体的“质检员”与“考官”。贯穿开发到部署的全流程,通过自动化基准测试(Benchmark)和实时反馈回路,量化模型能力边界,快速定位失败原因(归因),防止模型退化。 |
| G | Governance & Security 治理与安全 |
1. 权限模型与身份管理 2. 生命周期钩子 3. 组件加固 4. 声明式宪法 5. 审计基础设施 6. 智能体安全全景 |
智能体的“法律”与“安保系统”。将安全策略从代码逻辑中解耦,通过声明式的规则(如宪法 AI)和强制性的审计钩子,确保智能体行为符合人类价值观与企业合规要求,防范越狱与滥用风险。 |

下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
BuuPo官网在哪下载 最新官方下载安装地址
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
免费影视剧APP推荐
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
好用的手环阅读app下载安装
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短视频软件推荐
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc