来源:互联网 更新时间:2026-06-29 12:50
这并非方法论层面的选择,而是信息论上的必然:
* **理解拆解**:发生在信息不完整的阶段,目标是把模糊的用户意图转化为有向无环图(DAG)。如果这一步偷懒了,直接跳去执行,子任务的边界就会模糊不清,后续任何修复的代价都会被放大数倍。
* **分配执行**:这是一个调度问题。核心是用最少的agent来覆盖所有能力需求,同时最大化并行度。而这个阶段做得好坏,完全取决于前一步拆解的精度。
* **监控验证**:必须贯穿整个执行过程,而不是等到最终输出才来检查。一个错误如果在链路末端才发现,修复成本是在源头发现的n倍。
| 阶段 | 职责 | 时机 | 核心产物 |
|---|---|---|---|
理解与拆解 | 解析用户意图 → 拆解为子任务 DAG → 识别依赖关系 → 输出 agent 需求清单 | 事前 | 任务 DAG + agent 需求清单 |
分配与执行 | 匹配垂类 agent → 装填蒙版 → 并行调度 → 异常捕获 | 事中 | 执行状态流 + 中间输出 |
监控与验证 | 进度心跳 → 验证门判定 → 阻碍识别 → 置信度审查 → 回溯修复 | 事中 | 验证报告 + 合格输出 |
交互1:用户输入问题 → 系统输出工作流 + agent 清单
交互2:用户审核方案 → 调整/确认 agent 边界与编排逻辑
交互3:系统装填蒙版 → 执行 → 交付工作成果
核心目标:输出一份结构化竞品分析文档
约束条件:(未指定)
隐含前提:对象是用户所在行业的竞品(待确认)
歧义点:
- 竞品范围(国内/国际?几家?)
- 分析维度(功能/价格/市场份额/用户口碑?)
- 输出形式(Markdown/PPT/Word?)
在交互1中,系统会把工作流草案和这些歧义点一同呈现给用户,请用户在交互2中确认。
| 错误类型 | 描述 | 示例 |
|---|---|---|
| 隐式依赖 | 子任务之间有实际依赖但 DAG 中未连边 | 摘要任务依赖全文但 DAG 中与全文节点无边 |
| 过度拆分 | 粒度过细,子任务之间需要大量上下文传递 | 每个段落独立为一个节点,导致前后文断裂 |
| 粒度不均 | 部分节点承载了多个独立子任务 | “调研+写作”作为单一节点 |
| 环形依赖 | 依赖关系成环,无法排拓扑序 | A 需要 B 的输出,B 需要 A 的输出 |
K = {k₁, k₂, ..., kₙ},对每个agent Aⱼ 和每个知识域 kᵢ,我们定义一个蒙版激活值:
m(Aⱼ, kᵢ) ∈ [-1, 1]
m = 1 → 主激活域(核心能力区,自由调用)
m = 0 → 静默域(不主动激活,泄漏风险存在)
m = -1 → 抑制域(显式反激活,注入抑制 prompt)
m ∈ (0, 1) → 背景域(半激活,可被动触发但需声明)
m ∈ (-1, 0) → 弱抑制域(不鼓励,不绝对禁止)
三个激活域按阈值划分:
主激活域 M_main = { kᵢ | m(Aⱼ, kᵢ) > θ_main }
背景域 M_bg = { kᵢ | θ_bg < m(Aⱼ, kᵢ) ≤ θ_main }
静默域 M_silent = { kᵢ | m(Aⱼ, kᵢ) ≤ θ_bg }
默认阈值:θ_main = 0.7, θ_bg = 0.3
θ_main = 0.7:留出0.3的缓冲带,防止主激活域定义得过于狭窄,导致任务完成率下降。
* θ_bg = 0.3:低于这个值的知识域,即便被激活了,也应被视为噪声,需要强制阻断。
* 这两个阈值可以按任务类型调整,但调整必须在装填阶段完成,执行过程中禁止动态修改。
Aⱼ 在推理过程中使用了 kᵢ,且 kᵢ ∉ M_main(Aⱼ),必须按以下规则处理:
规则1:kᵢ ∈ M_bg → 允许使用,但必须在输出中标记:[蒙版泄漏 | agent=Aⱼ | 域=kᵢ | 强度=m(Aⱼ,kᵢ)]
规则2:kᵢ ∈ M_silent → 先判断:
a. 该知识对当前任务必要 → 不能抑制,回溯到分配层调整蒙版
b. 该知识是模型自发激活 → 抑制 prompt 触发,阻断本轮推理
M_bg)的存在本身是合理的。agent的核心能力往往需要周围知识作为支撑,彻底切断会导致生成质量严重下降。标记泄漏的目的,是让验证层知道“这段输出用了非主激活域的知识”,进而在置信度判断时给出适当的折扣,而不是直接判定为错误。
...根据该公司2023年财报([蒙版泄漏 | agent=A3 | 域=财务分析 | 强度=0.45]),
其营收增速为18%,与行业均值持平...
路径1(主路径):M_main 内封闭生成
路径2(泄漏路径):M_main + M_bg 开放生成,标记所有泄漏
输出优先取路径1。当路径1无法完成时,启动路径2并附带泄漏报告。
输入:子 agent Aⱼ 的输出结论 C
Step 1 — 论点-论据拆解
C → { (p₁, E₁), (p₂, E₂), ..., (pₙ, Eₙ) }
每个 pᵢ 是一个论点,Eᵢ = {eᵢ₁, eᵢ₂, ...} 是支撑 pᵢ 的论据集合
Step 2 — 论据分层
对每个 e ∈ Eᵢ:
├─ 可验证事实 → 进入物质还原
├─ 推理推导 → 递归拆解其依赖的事实基础
└─ 经验判断 → 标记为 soft-claim,置信度权重折扣
Step 3 — 物质还原
对每个可验证事实 e:
├─ 事实存在且准确 → verified
├─ 事实存在但偏差 → 标记偏差度 δ(e)
├─ 事实不存在 → falsified → 触发不合格
└─ 事实无法验证 → uncertain → 标记置信度折扣
Step 4 — 判定
├─ 存在任意 falsified → 不合格
├─ 仅 uncertain + verified → 合格(置信度折扣)
└─ 全 verified → 合格(全置信度)
L1 — 轻量验证(默认对所有输出执行)
├─ 结构化字段完整性检查(必填字段是否齐全)
├─ 输出格式合规检查(是否符合约定的输出 schema)
└─ 表面矛盾检测(同一输出内部是否存在自相矛盾)
│
├─ 通过 → 绿灯放行,不进入 L2
└─ 不通过 → 触发 L2
L2 — 标准验证(L1 不通过时触发)
├─ 论点-论据拆解(Step 1-2)
├─ 物质还原关键论据(抽样 30-50%,优先抽取支撑核心论点的论据)
│
├─ 通过 → 合格(置信度折扣标注)
└─ 不通过 → 触发 L3
L3 — 深度验证(L2 发现 falsified 时触发)
├─ 全量论据物质还原
├─ 监督 agent 介入
├─ 上游 + 下游独立 agent 介入
└─ 结果:合格 / 不合格 → 重做
监督 agent(过程视角)
├─ 复盘 Aⱼ 的执行日志(每一步 prompt 输入 + 输出)
├─ 判断:违规使用了静默域知识?执行步骤跳步?指令理解偏差?
└─ 输出:故障原因分类 + 改进建议
上游 agent(输入视角)
├─ 检查 Aⱼ 收到的输入是否完整且正确(与预期输入规格对比)
├─ 判断:上游传递了错误数据?前置条件未满足?输入格式不符?
└─ 输出:输入侧问题定位 + 责任归属
下游 agent(消费视角)
├─ 检查 Aⱼ 的输出是否可被下游消费(依下游的输入规格验证)
├─ 判断:格式错误?字段缺失?语义不可解析?类型不匹配?
└─ 输出:输出侧问题定位 + 消费障碍描述
| 角色 | 自身盲区 | 独有可见区域 |
|---|---|---|
| 监督 agent | 看不到输入/输出的语义合理性 | 执行过程异常、步骤跳跃、指令偏差 |
| 上游 agent | 看不到 Aⱼ 的执行过程 | 输入空间全貌、前置条件状态、数据血缘 |
| 下游 agent | 看不到 Aⱼ 的执行过程 | 预期消费格式、语义可解析性、下游状态 |
重做步骤:
1. 定位根因(监督 agent 输出)
2. 修正根因:
├─ 输入问题 → 修正上游输出,原 agent 重做
├─ 蒙版问题 → 调整激活梯度,原 agent 重做
├─ 能力缺口 → 更换 agent 或扩展蒙版
└─ 过程问题 → 注入 process guard(执行约束 prompt),原 agent 重做
3. 重跑 + L2 验证(重做后的输出强制进入 L2,不得走 L1 绿灯)
4. 仍不合格 → 挂起,等待人工介入
A类 — 瞬态故障(Transient)
判定标准:同一输入重跑能过(故障与输入无关)
典型场景:API 超时、模型服务不可用、并发写冲突
修复策略:原地重试,指数退避,不改变任何输入或蒙版
上限:重试 3 次后降级为 B类或 C类重新评估
B类 — 参数失配(Parametric)
判定标准:agent 能力足够,但入参或指令不匹配
典型场景:prompt 未覆盖边缘情况、上下文被截断、输入格式错误
修复策略:回溯到父节点,修正参数后重新派发(不换 agent,不动蒙版)
注意:B类和 C类的判定边界在实践中容易混淆——关键问题是“换一组正确的参数,现有 agent 能完成吗”
答案是“能” → B类;答案是“不能” → C类
C类 — 能力缺口(Capability Gap)
判定标准:当前蒙版下 agent 不具备必要能力,无论输入如何调整都无法完成
典型场景:需要数值计算但 agent 仅文本能力,需要实时数据但 agent 无工具调用权限
修复策略:回溯到分配层,换 agent 或扩展蒙版
注意:扩蒙版可能引入新的泄漏风险
D类 — 拆解错误(Decomposition Error)
判定标准:子任务划分本身有问题,不是执行层的错
典型场景:隐式依赖未写入 DAG、拆分过细导致上下文断裂、节点边界划定错误
修复策略:回溯到规划层,重新拆解 DAG
触发条件:当同一 DAG 路径的多个节点连续发生 B类或 C类阻碍时,应升级评估是否为 D类
层级 回滚范围 兄弟节点处理
──── ──────── ────────────
节点级 只回滚当前节点 不影响(独立执行)
父节点级 回滚父节点 + 所有子节点 父节点下全部失效,需重新派发
路径级 回滚整条依赖链 链上全部失效,链外保留
全局级 回滚整个 DAG 全部失效,相当于从头开始
{
"timestamp": "2026-06-22T11:30:00Z",
"node_id": "A3",
"fault_type": "B",
"rollback_level": "父节点级",
"root_cause": "prompt 未覆盖多语言输入场景",
"fix_action": "扩展 prompt 覆盖范围,重新派发",
"second_run_result": "pass"
}
用户输入
↓
交互1:理解拆解 → 子任务 DAG + agent 清单(含蒙版摘要)
↓
交互2:用户审核 → 确认方案 / 提出修改
↓
交互3:装填蒙版 → 并行执行各节点
↓
├─ 验证门 L1
│ ├─ pass → 继续下一节点
│ └─ fail → 阻碍识别
│ ├─ A类 → 原地重试(指数退避)
│ ├─ B类 → 父节点回溯,修正参数,重新派发
│ ├─ C类 → 分配层回溯(换 agent / 扩蒙版)
│ └─ D类 → 规划层回溯(重拆 DAG,视情况退回交互2)
│
├─ 验证门 uncertain(L1 标记不确定)
│ └─ 进入 L2 标准验证
│ ├─ L2 pass → 置信度折扣标注 → 继续
│ └─ L2 fail(发现 falsified)→ 进入 L3
│ └─ L3:全量还原 + 三级介入
│ ├─ L3 合格 → 置信度折扣标注 → 继续
│ └─ L3 不合格 → 重做
│ └─ 重做仍不合格 → 挂起人工介入
↓
全节点完成 → 汇聚最终输出 → 交付用户
C类阻碍触发蒙版调整
→ 将某知识域 kᵢ 从 M_silent 提升到 M_bg
→ 执行时走泄漏路径(路径2),所有 kᵢ 的使用标记泄漏声明
→ 输出强制进入 L2 标准验证
→ 若 L2/L3 发现 falsified,且根因追溯指向新引入的泄漏域 kᵢ:
→ 说明“扩蒙版修能力缺口”对当前任务不适用
→ 回退策略:不回退蒙版(已有泄漏日志),改为更换 agent
→ 记录本次失败路径,防止下次对同一类任务再次尝试扩蒙版策略
| 触发条件 | 退回原因 | 用户需要做的事 |
|---|---|---|
| D类阻碍 + 回溯深度已达上限 | DAG 根本性错误,系统无法单方面修复 | 重新确认任务边界和拆解方式 |
| 人工介入后确认任务不可完成 | 用户预期与系统能力存在根本性落差 | 调整任务目标或降低质量要求 |
| 用户主动请求重新规划 | 用户在等待过程中发现需求变化 | 重新确认 agent 清单和编排逻辑 |
| 术语 | 定义 |
|---|---|
蒙版(Mask) | agent 的知识域激活配置,定义其在各知识域上的激活强度 m(Aⱼ, kᵢ) |
激活梯度 | m(Aⱼ, kᵢ) ∈ [-1, 1],连续值表示 agent 在特定知识域上的激活程度 |
主激活域(M_main) | m > θ_main 的知识域集合,agent 可自由调用 |
背景域(M_bg) | θ_bg < m ≤ θ_main 的知识域集合,可被动触发但需声明 |
静默域(M_silent) | m ≤ θ_bg 的知识域集合,不主动激活,泄漏时需阻断 |
泄漏声明 | agent 使用非主激活域知识时必须附加的标记,声明域和强度 |
物质还原 | 将论据追溯到客观事实并验证其存在性的过程 |
falsified | 物质还原的否定结果:论据声称的事实不存在于现实世界 |
verified | 物质还原的肯定结果:事实存在且准确 |
uncertain | 物质还原的不确定结果:事实无法验证,置信度折扣处理 |
偏差度 δ(e) | 0-1 连续值,衡量论据与事实的偏离程度 |
验证门 | 子任务输出点的自动判定机制,三分输出:pass / fail / uncertain |
三级介入 | 不合格触发时监督 agent + 上游 agent + 下游 agent 的联合诊断 |
回溯 | 将执行状态回滚到某个安全点并修正后继续 |
DAG | 有向无环图,子任务依赖关系的标准表示形式 |
process guard | 注入到 prompt 中的执行约束,防止 agent 重蹈已知的过程问题 |
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
植物娘大战僵尸电脑端与手机端存档转移的方法
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
美好的简约网名男生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
腾讯元宝怎么用来分析股票基金的基本面信息?
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
《金铲铲之战》高校赛夏季赛总决赛观赛指南来袭 还有铲铲教学一同献上
动漫《情色漫画老师OVA》剧情介绍
wallpaper壁纸声音怎么开启
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc