来源:互联网 更新时间:2026-05-30 14:47
随着 ChatGPT、Claude 和 Gemini 这些模型的接连登场,过去那些关于人工智能 Agent 的设想——无论是科幻的想象还是科学的推演——似乎一下子都更“接地气”了。再加上“vision”能力和函数调用这些新功能的加持,AI Agent 的发展路径正在变得越发明晰。

既然 Agent 的潜力正在被释放,那么一个很自然的想法就浮出水面了:我们是不是该从单纯的“提示词工程”,走向更宏观的“Agent 工程”了?这不仅仅是换个说法那么简单,而是需要我们建立起一套与之匹配的框架、方法论和思维模型,来系统性地设计这些智能体。这篇文章要聊的,就是围绕 LLM 展开的 Agent 工程的一些核心理念,或者说,是它背后的那些“设计思想”。
不妨先搭个框架来看看。从最上层开始,我们需要明确 Agent 要做什么、要做到多好,这是“Agent 能力要求”。然后进入“Agent 工程与设计”部分,去评估现有技术,并思考 Agent 的内部结构和编排方式。这套框架当然不是面面俱到的定稿,更像是一个方便思考的“心智模型”。但从某处开始,再逐步迭代和精进,这本身就是有价值的事。
先问几个最根本的问题:我们建这个 Agent,到底是为了干什么?它有具体的工作或角色吗?是“行动”服务于“目标”,还是“目标”带动“行动”?干一件事,是造一个全能型的 Agent 更好,还是搞一群分工明确的 Agent 集群更靠谱?
人类语言的好处是灵活,允许我们从不同方向去比喻和扩展概念,但坏处也在这儿——容易产生歧义。所以在这个框架里,我刻意回避了对“任务”、“工作”、“目标”这些词的严格区分,因为现实中它们常常被混着用。更重要的,是让那些能指导 Agent 工程实践的核心概念浮出水面。现阶段,这个框架更像一个引导我们思考的心智模型,核心逻辑其实很直接:
设计 Agent 的第一步,也是最关键的一步,就是把它的职责清单列清楚。它到底需要完成哪些主要工作、任务或者目标?这个目标可以定得很高、很宏观,也可以拆解成一系列具体的小任务。比如,一个电商客服 Agent,它的工作可能就包含处理一般咨询、分析客户行为、以及产品推荐这几大块。而一个内容创作 Agent,它的任务可能是集思广益、或者独立起草文章。你看,这里“工作”、“任务”、“目标”都可以用来描述 Agent 该做的事,灵活理解就好。
明确了“要做什么”,下一步就是“具体怎么干”。这里思考的重心,要从“目标”转向“行动”,开始设计具体的行为序列。同时,一个很重要的问题也出现了:这个 Agent 的自主性,应该设置在什么级别上?
拿内容创作 Agent 来举例,它的行动链可能是这样的:先调用其他 Agent 去分析内容趋势,然后根据这些趋势和受众偏好生成创意列表,接着起草文章或博客,最后接收人类用户的编辑指令进行修改。在这个流程里,Agent 可以自主完成内容生成和起草,最终的决策审批权交给人类编辑。或者,中间也可以再加一道环节,由一个专门的“编辑 Agent”先做一轮初审,再转交给人。
既然行动方案已经画出来了,那么接下来就该梳理一下,执行这些动作需要 Agent 具备哪些“能力”了。这些能力可以是比较宏观的,比如自然语言对话、信息检索、内容生成、数据分析、持续学习等。也可以在更技术化的层面上来说,比如API调用、函数调用等。
继续看内容创作 Agent 的例子,它需要的能力可能包括:
这里有一个很重要的原则:描述这些能力时,尽量不要把自己的思路限制住,不要过早地绑定到某一种具体技术上。比如,虽然现在大家都在聊LLM,但像大型行动模型(LAM)这样的技术发展也很快,未来它可能就是实现某些能力的更优选择。
光知道需要什么能力还不够,还得说清楚这些能力要达到多高的水平,也就是所谓的“熟练度”。这需要我们设定具体的基准和性能指标,Agent 只有达到了这些指标,才能算是真“熟练”了。常见的指标包括准确性、效率和可靠性。
还是用内容创作 Agent 来说事,它的熟练度要求可以是下面这样:
能力和熟练度要求都明确了,下一步就是去工具箱里找对应的“家伙什”。这需要我们去评估当前那些快速迭代的技术和技巧——包括LLM、RAG、Guardrails、专用API以及其他各种ML/AI模型——看看它们是否能满足我们定下的熟练度指标。当然,在做选择时,不能只盯着技术上限,也要从全局考虑它的成本收益比。下面简单聊几种常见的技术方向,当然,可能性远不止这些。
广博的知识,指的是Agent对各类话题和领域都具备基础的理解。它是让Agent能流畅对话、理解上下文、并对各种问题做出合理回应的基石。
说到这个,LLM 自然是首选。好消息是,LLM 的发展速度惊人,从 Llama3 这样的开源模型,到 OpenAI、Anthropic 和 Google 的最新闭源模型,能覆盖人类语言和知识广袤领域的技术选择相当丰富。
而“提示词工程”则是另一个活跃的领域。它的核心在于,如何通过精妙的提示词,激活 LLM 中与当前上下文最匹配的“知识域”。语言就像个万花筒,掌握了这门艺术,对 Agent 能力的提升效果会非常显著。
跟广博知识相对,特定知识指的是对某个垂直领域或专题的深度理解。当任务需要用到专业术语或行业背景时,这类知识就必不可少。那么,有哪些技术可以用?
精确信息指的是那些高准确度、不可争议的事实数据,是某些任务的绝对刚需。
当你对 Agent 该干什么、需要什么能力、用什么技术来实现这些能力都心里有数之后,就该考虑最核心的架构问题了:如何组织和编排这些能力?是都注册到一个单一 Agent 上,还是把每种能力都做成一个独立的 Agent,再让它们“集群”作战?怎么设计才能让这些能力和 Agent 更易于复用,降低未来的开发成本?这个话题本身就值得用好几篇文章来探讨,这里就不展开了。可以说,到了这一步,才算是真正“硬碰硬”的实践环节,你会发现,自己正在做的就是把各种技术和技巧融合起来,真正给 Agent 注入灵魂。
从“提示词工程”走向“Agent 工程”,这趟旅程才刚刚开始,前面还有太多的东西需要学习、验证和完善。这篇关于 “Agent 工程框架” 的首版讨论,更像是一个高层次的思维模型,为系统性地设计 AI Agent 提供了一条务实的路径。随着可用于构建 Agent 的模型和技术越来越多,一个能脱离具体技术类别、具有普遍指导意义的框架就变得愈发重要。通过清晰地定义 Agent 该做什么、画出执行任务所需的行动、并规定出必要的能力和熟练度,我们为后续的设计和工程工作打下了坚实且灵活的基础。它同时为我们提供了一套结构,让 Agent 和它的能力可以在实践中持续地迭代与进化。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
BuuPo官网在哪下载 最新官方下载安装地址
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
无尽花界时装合辑
免费影视剧APP推荐
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短视频软件推荐
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc