来源:互联网 更新时间:2026-05-30 17:35
整理了智谱AI公开分享的prompt最佳实践后,有几个关键判断值得沉淀。这一系列分为三部分:prompt框架、迭代优化,以及评测与产品构建。本篇聚焦第三块——prompt效果评测。
模型输出的效果怎么评价?核心思路有三步:先基于业务需求定标准;再参考不同场景的通用评测维度;如果一时拿不准,可以通过小样本测试,从评测过程中提炼迭代。
| 场景 | 不同场景通用评测维度 |
| 文本写作 | 格式正确(文书格式、诗歌押韵、段落数量约束等);内容正确可用(符合规范、与输入相关);用词符合要求(如使用指定的成语、术语、歇后语,或指定难度的句式等)。 |
| 信息抽取 | 格式正确(json格式、key-value对、数据格式等);抽取维度正确(按要求的粒度抽取);抽取内容正确(不多抽、不漏抽、不造内容)。 |
| 角色扮演(多轮对话) | 人设一致性(性格、人物关系、兴趣爱好、经历事件与设定相符);对话流畅性(不生硬、有趣、人设突出,断句、语气、说话方式自然);回复多样性(能主动推进剧情、移动场地,避免重复内容);对话逻辑性(避免语句截断、说话不完整、答非所问、前后矛盾和逻辑错误)。 |
| 知识库问答 | 答案正确性(端到端准确率,与知识一致,不多答、漏答;人工与原文比对并主观定性判断);拒答准确性(无法回答的问题需拒答,避免胡编);反问追问正确性(在适当时机询问适当信息以补全解答)。 |
| 意图识别/分类 | 整体准确率(正确数/总case数);精准率(预测结果中正确比例);召回率(正例中被覆盖的比例)。 |
评测集数量建议不少于50条,100条以上更理想。评测集分布要与真实问题分布一致,可以通过线上抽样和按维度构造两种方式获取。
测试迭代的策略是:前期用小部分评测集快速迭代小版本,待效果稳定后再用完整评测集做大版本测试,这样能显著降低评测成本。
从模型层到应用层,分层处理:预训练提供通用能力,微调聚焦领域能力,prompt工程解决具体任务能力。应用层则需要产品化和工程化,把多种任务调度整合起来。
To C面向终端用户,内容优先,打造全能助理;To B面向专业场景,需要领域AI专家能力,工程要求高,输出务必严谨。
大模型应用构建流程概览:


第一种方式是通过flow拆解流程,以对话质检为例:



第二种方式是通过agent方案构建。以智谱清言的智能体为例,设计agent的人设、技能、知识库等:


prompt设计示意:

说到底,prompt是低成本调用AI能力的最佳方法。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
BuuPo官网在哪下载 最新官方下载安装地址
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
无尽花界时装合辑
免费影视剧APP推荐
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短视频软件推荐
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc