来源:互联网 更新时间:2026-06-19 14:56
想快速、准确地评估一个大模型的能力,但又被繁琐的数据准备、脚本编写和结果分析搞得头疼?或许,你可以了解一下One-Eval。这个由北京大学OpenDCAI团队开源的项目,本质上是一个自动化、Agent驱动的评测框架。它的核心卖点,用一个词概括就是“NL2Eval”——你只需用最自然的语言描述评测目标,剩下的,交给它就好。
从基准推荐、数据下载,到模型推理、答案评分,再到最终的多维度报告生成,整个链条一气呵成。它基于DataFlow与LangGraph构建,目标就是实现从需求到报告的全链路自动化,把开发者从重复劳动中解放出来。
pip install -e .安装所有项目依赖。uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000命令,启动核心的FastAPI服务。one-eval-web目录,依次执行npm install && npm run dev。完成后,在浏览器访问localhost:5173即可看到操作界面。python -m one_eval.graph.workflow_all "评测目标"来触发完整的工作流。为了更清晰地定位One-Eval,我们将其与业界两个知名的评测框架进行对比:
| 对比维度 | One-Eval | OpenCompass | EleutherAI LM Harness |
|---|---|---|---|
开发团队 |
北京大学 OpenDCAI 实验室 | 上海人工智能实验室 | EleutherAI 社区 |
核心定位 |
Agent 驱动、NL2Eval 自动化评测 | 中文社区主流、配置驱动评测 | 海外老牌、脚本化评测工具 |
使用方式 |
自然语言描述 + Web UI 交互 + 代码调用 | YAML 配置文件 + 命令行脚本 | Python 脚本 + CLI 命令行 |
上手门槛 |
低,一句话即可发起评测 | 中,需编写配置文件 | 中,需编写代码与脚本 |
人机协同 |
支持,关键节点可中断、审查与干预 | 不支持,纯自动化执行 | 不支持,纯自动化执行 |
前端界面 |
内置 React + Vite 可视化工作流 | 有结果展示页面,无交互式前端 | 无前端界面 |
中文生态 |
原生支持 C-Eval、CMMLU 等 | 极强,中文基准覆盖完善 | 较弱,需自行配置中文数据集 |
异构数据支持 |
DataFlow 算子系统统一接入 | 较完善 | 较完善,但配置复杂度较高 |
Agent/Sandbox 评测 |
规划中(未来支持 SWE-bench 等) | 部分支持 | 不支持 |
适用场景 |
快速选型、工程验收、学术实验 | 深度定制、大规模批量评测 | 英文基准研究、代码级灵活定制 |
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
帅到极致的网名女生霸气(精选100个)
帅气继父网名女生可爱英文(精选100个)
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
蒙古上单是什么梗
韦一敏是什么梗
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
如何在夸克浏览器中开启网页视频的倍速播放功能?
抖音最火沙雕男生网名(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
作家助手如何上传自制封面 作家助手如何设置小说的封面
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc