来源:互联网 更新时间:2026-06-06 14:33
最近,腾讯混元团队和人大高瓴人工智能学院等机构联手,推出并开源了一个新框架——PlanningBench。它的定位,就是用来评测和训练大语言模型在规划这件事上的能力。而且,这个框架是可扩展、可验证的,数据生成和检查都能跟上。

PlanningBench的切入点很务实,它从真实规划场景出发,把任务、约束、难度这些因素系统地抽象出来,搭建起一个覆盖超过30种规划任务类型的数据生成与验证体系。这套体系不仅能看一个模型到底有没有规划能力,还能为模型训练提供稳定的、可迁移的奖励信号——这才是关键所在。
任务设计上,PlanningBench覆盖了六大类实际应用:日程排布、资源分配、人力排班、路径调度、生产运营和应急服务。范围这么广,就是为了避免模型只在某一个领域里“刷题”刷得漂亮,换个场景就露怯。让模型真正去应对多样化的真实世界,这才是初衷。
值得一提的还有它的难度控制体系。它通过拆解任务结构、约束层级、资源紧张度这些因素来调整难度,而不是简单地把提示词变长、变复杂。每条数据实例还附带一个checklist,用来评估模型的输出是否满足输入条件、是否受资源限制、以及目标是否达到最优。这就扎扎实实地把评估落到了细节上。
有意思的是,PlanningBench同时关注“局部合规”和“全局成功”,能识别出那种“看起来大部分都对,但实际上整体根本无法执行”的计划。这种能力,对于诊断大语言模型在复杂约束下的真实规划水平,价值非常大。
从实际效果看,用PlanningBench的可验证数据去训练模型,模型在没见过的规划基准和通用任务上的表现也明显提升了。这说明它的学习信号确实具有通用性。整体来看,PlanningBench走通了一个真实的闭环:从场景出发生成数据,数据驱动训练,训练成果还能迁移到更多任务上。对于未来的人工智能规划研究来说,这无疑提供了一个新的方向和工具箱。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
《Off Campus》第二季官宣:这对CP还在,但不再是主角
4D采矿者官网在哪下载 最新官方下载安装地址
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
抖音最火沙雕男生网名(精选100个)
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短剧《情绪超市》剧情介绍
短视频软件推荐
免费看电影的软件推荐
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
KuCoin基本面分析
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
网络热词聊污是什么意思
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
洛克王国世界S2赛季狂欢怪谈介绍
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc