您的位置：首页 > > 教程攻略 > ai资讯 >从提示词工程到 Agent 工程

从提示词工程到 Agent 工程

来源:互联网 更新时间:2026-05-30 14:47

随着 ChatGPT、Claude 和 Gemini 这些模型的接连登场，过去那些关于人工智能 Agent 的设想——无论是科幻的想象还是科学的推演——似乎一下子都更“接地气”了。再加上“vision”能力和函数调用这些新功能的加持，AI Agent 的发展路径正在变得越发明晰。

从提示词工程到 Agent 工程

既然 Agent 的潜力正在被释放，那么一个很自然的想法就浮出水面了：我们是不是该从单纯的“提示词工程”，走向更宏观的“Agent 工程”了？这不仅仅是换个说法那么简单，而是需要我们建立起一套与之匹配的框架、方法论和思维模型，来系统性地设计这些智能体。这篇文章要聊的，就是围绕 LLM 展开的 Agent 工程的一些核心理念，或者说，是它背后的那些“设计思想”。

不妨先搭个框架来看看。从最上层开始，我们需要明确 Agent 要做什么、要做到多好，这是“Agent 能力要求”。然后进入“Agent 工程与设计”部分，去评估现有技术，并思考 Agent 的内部结构和编排方式。这套框架当然不是面面俱到的定稿，更像是一个方便思考的“心智模型”。但从某处开始，再逐步迭代和精进，这本身就是有价值的事。

Agent 工程框架

简介

先问几个最根本的问题：我们建这个 Agent，到底是为了干什么？它有具体的工作或角色吗？是“行动”服务于“目标”，还是“目标”带动“行动”？干一件事，是造一个全能型的 Agent 更好，还是搞一群分工明确的 Agent 集群更靠谱？

人类语言的好处是灵活，允许我们从不同方向去比喻和扩展概念，但坏处也在这儿——容易产生歧义。所以在这个框架里，我刻意回避了对“任务”、“工作”、“目标”这些词的严格区分，因为现实中它们常常被混着用。更重要的，是让那些能指导 Agent 工程实践的核心概念浮出水面。现阶段，这个框架更像一个引导我们思考的心智模型，核心逻辑其实很直接：

人工智能 Agent 被赋予任务
完成任务需要执行行动
执行行动需要能力
能力需要达到一定的熟练度
熟练度要求决定了我们选择什么技术和技巧
而这些技术和技巧最终需要被有效地协调和组织起来

Agent 能力要求

要完成的任务

设计 Agent 的第一步，也是最关键的一步，就是把它的职责清单列清楚。它到底需要完成哪些主要工作、任务或者目标？这个目标可以定得很高、很宏观，也可以拆解成一系列具体的小任务。比如，一个电商客服 Agent，它的工作可能就包含处理一般咨询、分析客户行为、以及产品推荐这几大块。而一个内容创作 Agent，它的任务可能是集思广益、或者独立起草文章。你看，这里“工作”、“任务”、“目标”都可以用来描述 Agent 该做的事，灵活理解就好。

执行任务时需采取的行动

明确了“要做什么”，下一步就是“具体怎么干”。这里思考的重心，要从“目标”转向“行动”，开始设计具体的行为序列。同时，一个很重要的问题也出现了：这个 Agent 的自主性，应该设置在什么级别上？

拿内容创作 Agent 来举例，它的行动链可能是这样的：先调用其他 Agent 去分析内容趋势，然后根据这些趋势和受众偏好生成创意列表，接着起草文章或博客，最后接收人类用户的编辑指令进行修改。在这个流程里，Agent 可以自主完成内容生成和起草，最终的决策审批权交给人类编辑。或者，中间也可以再加一道环节，由一个专门的“编辑 Agent”先做一轮初审，再转交给人。

所需要的能力

既然行动方案已经画出来了，那么接下来就该梳理一下，执行这些动作需要 Agent 具备哪些“能力”了。这些能力可以是比较宏观的，比如自然语言对话、信息检索、内容生成、数据分析、持续学习等。也可以在更技术化的层面上来说，比如API调用、函数调用等。

继续看内容创作 Agent 的例子，它需要的能力可能包括：

能够动态调用内容趋势 Agent 的API。
具备头脑风暴和总结归纳的功能。
能根据当前主题和趋势，生成合适的内容。
能够根据人的指令来编辑和修改内容。
需要具备记忆能力。

这里有一个很重要的原则：描述这些能力时，尽量不要把自己的思路限制住，不要过早地绑定到某一种具体技术上。比如，虽然现在大家都在聊LLM，但像大型行动模型（LAM）这样的技术发展也很快，未来它可能就是实现某些能力的更优选择。

所需的能力熟练度

光知道需要什么能力还不够，还得说清楚这些能力要达到多高的水平，也就是所谓的“熟练度”。这需要我们设定具体的基准和性能指标，Agent 只有达到了这些指标，才能算是真“熟练”了。常见的指标包括准确性、效率和可靠性。

还是用内容创作 Agent 来说事，它的熟练度要求可以是下面这样：

函数调用的可靠性达到75%。
函数调用失败时，具备99.99%的可解释性。
调用内容趋势 Agent 时，至少有75%的首次尝试能找到相关主题。
生成的内容创意，在75%的情况下能命中预期的主题。
检索精确信息时，精确率达到99.99%。
根据用户指令生成的编辑内容，用户满意度达到90%或更高。
最终生成的草稿，用户满意度达到90%或更高。

Agent 工程与设计

将所需能力映射到技术和技巧

能力和熟练度要求都明确了，下一步就是去工具箱里找对应的“家伙什”。这需要我们去评估当前那些快速迭代的技术和技巧——包括LLM、RAG、Guardrails、专用API以及其他各种ML/AI模型——看看它们是否能满足我们定下的熟练度指标。当然，在做选择时，不能只盯着技术上限，也要从全局考虑它的成本收益比。下面简单聊几种常见的技术方向，当然，可能性远不止这些。

广博知识能力

广博的知识，指的是Agent对各类话题和领域都具备基础的理解。它是让Agent能流畅对话、理解上下文、并对各种问题做出合理回应的基石。

说到这个，LLM 自然是首选。好消息是，LLM 的发展速度惊人，从 Llama3 这样的开源模型，到 OpenAI、Anthropic 和 Google 的最新闭源模型，能覆盖人类语言和知识广袤领域的技术选择相当丰富。

而“提示词工程”则是另一个活跃的领域。它的核心在于，如何通过精妙的提示词，激活 LLM 中与当前上下文最匹配的“知识域”。语言就像个万花筒，掌握了这门艺术，对 Agent 能力的提升效果会非常显著。

特定知识能力

跟广博知识相对，特定知识指的是对某个垂直领域或专题的深度理解。当任务需要用到专业术语或行业背景时，这类知识就必不可少。那么，有哪些技术可以用？

检索增强生成（RAG）
：RAG 将 LLM 的创造力与信息检索系统结合了起来。它能从外部知识库中引入精确的或特定的信息（比如某个独特工艺的描述），LLM 则凭借其广博知识，在上下文中“理解”并利用这些新信息。
模型微调
：在特定的领域数据集上对 LLM 进行进一步的训练，让它能生成更符合该语境和风格的回复。虽然目前不如 RAG 那么流行，但随着 Agent 工程的发展，当熟练度要求变得更高时，我们可能会越来越多地用到它。

精确信息

精确信息指的是那些高准确度、不可争议的事实数据，是某些任务的绝对刚需。

函数调用（工具使用）
：为了不让 Agent 对具体事实产生离谱的幻觉，我们很可能会求助于函数调用，让它去外部系统里获取确切的信息。比如，电商 Agent 调用价格API来获取最新定价，股票 Agent 调用行情API获取实时股价。
防护栏
：防护栏就像个安全网，确保 Agent 在生成回复时不“出格”。它可以是基于规则的约束，也可以是针对性的对话流程设计，或者对用户意图的预处理。

Agent 结构与编排

当你对 Agent 该干什么、需要什么能力、用什么技术来实现这些能力都心里有数之后，就该考虑最核心的架构问题了：如何组织和编排这些能力？是都注册到一个单一 Agent 上，还是把每种能力都做成一个独立的 Agent，再让它们“集群”作战？怎么设计才能让这些能力和 Agent 更易于复用，降低未来的开发成本？这个话题本身就值得用好几篇文章来探讨，这里就不展开了。可以说，到了这一步，才算是真正“硬碰硬”的实践环节，你会发现，自己正在做的就是把各种技术和技巧融合起来，真正给 Agent 注入灵魂。

结论

从“提示词工程”走向“Agent 工程”，这趟旅程才刚刚开始，前面还有太多的东西需要学习、验证和完善。这篇关于 “Agent 工程框架” 的首版讨论，更像是一个高层次的思维模型，为系统性地设计 AI Agent 提供了一条务实的路径。随着可用于构建 Agent 的模型和技术越来越多，一个能脱离具体技术类别、具有普遍指导意义的框架就变得愈发重要。通过清晰地定义 Agent 该做什么、画出执行任务所需的行动、并规定出必要的能力和熟练度，我们为后续的设计和工程工作打下了坚实且灵活的基础。它同时为我们提供了一套结构，让 Agent 和它的能力可以在实践中持续地迭代与进化。