您的位置：首页 > > 教程攻略 > ai资讯 >提示词最佳实践（三）：prompt效果评测与产品构建

提示词最佳实践（三）：prompt效果评测与产品构建

来源:互联网 更新时间:2026-05-30 17:35

整理了智谱AI公开分享的prompt最佳实践后，有几个关键判断值得沉淀。这一系列分为三部分：prompt框架、迭代优化，以及评测与产品构建。本篇聚焦第三块——prompt效果评测。

Prompt效果评测

模型输出的效果怎么评价？核心思路有三步：先基于业务需求定标准；再参考不同场景的通用评测维度；如果一时拿不准，可以通过小样本测试，从评测过程中提炼迭代。

场景	不同场景通用评测维度
文本写作	格式正确（文书格式、诗歌押韵、段落数量约束等）；内容正确可用（符合规范、与输入相关）；用词符合要求（如使用指定的成语、术语、歇后语，或指定难度的句式等）。
信息抽取	格式正确（json格式、key-value对、数据格式等）；抽取维度正确（按要求的粒度抽取）；抽取内容正确（不多抽、不漏抽、不造内容）。
角色扮演（多轮对话）	人设一致性（性格、人物关系、兴趣爱好、经历事件与设定相符）；对话流畅性（不生硬、有趣、人设突出，断句、语气、说话方式自然）；回复多样性（能主动推进剧情、移动场地，避免重复内容）；对话逻辑性（避免语句截断、说话不完整、答非所问、前后矛盾和逻辑错误）。
知识库问答	答案正确性（端到端准确率，与知识一致，不多答、漏答；人工与原文比对并主观定性判断）；拒答准确性（无法回答的问题需拒答，避免胡编）；反问追问正确性（在适当时机询问适当信息以补全解答）。
意图识别/分类	整体准确率（正确数/总case数）；精准率（预测结果中正确比例）；召回率（正例中被覆盖的比例）。