热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >提示词最佳实践(三):prompt效果评测与产品构建

提示词最佳实践(三):prompt效果评测与产品构建

来源:互联网 更新时间:2026-05-30 17:35

整理了智谱AI公开分享的prompt最佳实践后,有几个关键判断值得沉淀。这一系列分为三部分:prompt框架、迭代优化,以及评测与产品构建。本篇聚焦第三块——prompt效果评测。

Prompt效果评测

01 确定评测维度

模型输出的效果怎么评价?核心思路有三步:先基于业务需求定标准;再参考不同场景的通用评测维度;如果一时拿不准,可以通过小样本测试,从评测过程中提炼迭代。

场景不同场景通用评测维度
文本写作格式正确(文书格式、诗歌押韵、段落数量约束等);内容正确可用(符合规范、与输入相关);用词符合要求(如使用指定的成语、术语、歇后语,或指定难度的句式等)。
信息抽取格式正确(json格式、key-value对、数据格式等);抽取维度正确(按要求的粒度抽取);抽取内容正确(不多抽、不漏抽、不造内容)。
角色扮演(多轮对话)人设一致性(性格、人物关系、兴趣爱好、经历事件与设定相符);对话流畅性(不生硬、有趣、人设突出,断句、语气、说话方式自然);回复多样性(能主动推进剧情、移动场地,避免重复内容);对话逻辑性(避免语句截断、说话不完整、答非所问、前后矛盾和逻辑错误)。
知识库问答答案正确性(端到端准确率,与知识一致,不多答、漏答;人工与原文比对并主观定性判断);拒答准确性(无法回答的问题需拒答,避免胡编);反问追问正确性(在适当时机询问适当信息以补全解答)。
意图识别/分类整体准确率(正确数/总case数);精准率(预测结果中正确比例);召回率(正例中被覆盖的比例)。

示例:人物扮演闲聊场景


要求模型输出简洁流畅的日常口语化回复。

02 构建评测集、测试迭代

评测集数量建议不少于50条,100条以上更理想。评测集分布要与真实问题分布一致,可以通过线上抽样和按维度构造两种方式获取。

  • 线上抽样:小版本调优后灰度上线,收集线上的badcase,再次迭代、上线。
  • 按维度构造:针对不同维度人工设计测试用例。

测试迭代的策略是:前期用小部分评测集快速迭代小版本,待效果稳定后再用完整评测集做大版本测试,这样能显著降低评测成本。

构建示例:知识库项目

构建产品方案

01 产品方案构建流程

从模型层到应用层,分层处理:预训练提供通用能力,微调聚焦领域能力,prompt工程解决具体任务能力。应用层则需要产品化和工程化,把多种任务调度整合起来。

02 不同应用场景

To C面向终端用户,内容优先,打造全能助理;To B面向专业场景,需要领域AI专家能力,工程要求高,输出务必严谨。

  • To C场景

  • To B场景

03 大模型应用规划流程

大模型应用构建流程概览:

Flow形式【以对话质检为例】

第一种方式是通过flow拆解流程,以对话质检为例:

  • prompt1:信息预处理

  • prompt2:信息抽取

Agent方案【外卖助手agent】

第二种方式是通过agent方案构建。以智谱清言的智能体为例,设计agent的人设、技能、知识库等:

prompt设计示意:

说到底,prompt是低成本调用AI能力的最佳方法。

AI自动绘画大师
AI自动绘画大师

类型:益智休闲

大小:5.72MB

语言:简体中文

平台:互联网

游戏下载

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc