来源:互联网 更新时间:2026-06-06 14:27
先说一下读完这个框架的第一感受:它抓住了目前大模型能力评测的一个核心痛点——很多模型回答看起来“头头是道”,但真的拿去执行,就露馅了。PlanningBench 是腾讯混元团队联合中国人民大学高瓴人工智能学院等机构推出的开源框架,专注解决大语言模型的规划能力评测与训练问题。这个框架从真实场景出发,构建了一套覆盖六大类、30余种规划任务的可验证数据生成体系。它的核心逻辑是通过约束驱动的闭环合成流程,让模型的规划结果从“看起来合理”走向“真的可执行”。
表格如下:
| 维度 | PlanningBench | AgentBench |
|---|---|---|
核心定位 |
专注于大模型规划能力 |
综合性大模型智能体能力 |
任务覆盖 |
覆盖6大类30余种真实规划任务,包括日程排布、资源分配、人力排班、路径调度、生产运营、应急服务。 | 覆盖8个交互环境,包括操作系统、数据库、知识图谱、数字卡牌、横向思维、家庭管理、网上购物、网页浏览。 |
验证机制 |
每条实例配套结构化checklist,自动逐项验证约束满足情况,精确判定方案是否全局可执行。 | 基于环境执行反馈与结果匹配判定任务成功,不同环境有独立的验证逻辑。 |
评测指标 |
采用A vg-pass(局部约束满足率)与All-pass(全局可执行率)双指标,识别“局部正确但整体不可执行”的输出。 | 主要采用Success Rate(成功率),按8个环境分别统计,衡量任务最终完成度。 |
难度控制 |
通过三层约束体系(基础/中等/困难)与闭环难度增强机制,主动调控约束耦合度和资源冲突强度。 | 通过多轮交互(5-50轮)和环境复杂度递进提升难度,更侧重交互深度而非约束密度。 |
环境交互 |
面向静态规划问题求解,模型在明确输入下生成完整方案,无需与外部环境实时交互。 | 要求模型与模拟环境(如bash终端、浏览器、数据库)进行实时多轮交互,动态获取反馈。 |
训练支持 |
原生支持训练,可验证数据可直接作为GRPO等强化学习的奖励信号,且能迁移到外部基准。 | 主要用于评测,框架本身不直接提供可扩展的训练数据生成能力。 |
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
archiveofourown 实战指南:常见用法整理
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
作家助手如何上传自制封面 作家助手如何设置小说的封面
如何在夸克浏览器中开启网页视频的倍速播放功能?
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
全链网:黄金价格因美元的走强及利率担忧而下跌
美国市场:股票相对债券的风险溢价正在消失
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
电视剧《小欢喜》剧情介绍
电影《遁甲门之消失的公主》剧情介绍
动漫《柚木家的四兄弟》剧情介绍
植物娘大战僵尸电脑端与手机端存档转移的方法
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
卡厄思梦境哀嚎螺旋塔攻略 哀嚎螺旋塔怎么玩
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc