来源:互联网 更新时间:2026-05-30 21:29
字节跳动最近动作不小。继悄悄上线了一大波第三方国产大模型之后,旗下的扣子平台,今天正式推出了一个“竞技场”功能——让各大模型正面“厮杀”,一较高下。
截至今天(2024年6月12日),扣子支持的第三方国产大模型阵容如下:

今天下午,扣子正式上线了“模型广场”,“厮杀”就此拉开序幕。竞技场支持两种玩法:随机对战和选择模型对战。
对战模式 | 说明 |
指定Bot对战 | 指定Bot进行模型对战,适用于评测模型在指定细分领域的文本生成、技能和知识调用等能力。 |
随机Bot对战 | 系统随机选择一个Bot进行模型对战,适用于评测模型在任意业务场景下的文本生成、技能和知识调用等能力。 |
纯模型对战 | 不指定任何Bot,系统随机选择两个模型展开对决。模型回答不受编排、工作流等配置的限制和影响,适用于评测模型本身的文本生成等能力。 |
选择“随机对战”,点击开始。说实话,事先你根本不知道对阵的双方是谁——就像是蒙面的对手,都在回答同一个问题。究竟谁的回答更能赢得观战者的芳心?只能拭目以待。
实际跑了一局,GLM-4拿下了这场battle的胜利。MiniMax的角色扮演能力在这种对话场景里算是锦上添花,但GLM-4显然更胜一筹。
当然,竞技场也支持推理能力、编码能力、任务解决、生成创作、角色扮演这几个维度的专项PK。
信息分析与处理、知识应用、推理能力
编码能力、任务解决、生成创作
角色创作
扣子平台的竞赛规则,核心就是公平。系统会随机选两个匿名模型进行成对比较,采用均匀采样和分流来减少外部因素的干扰。对战时,模型的生成多样性设为平衡模式,上下文轮数和最大回复长度则根据Bot的设置或模型的上限来确定。
纯模型对战模式下,上下文轮数固定为3轮,最大回复长度为2k,输出格式为文本。用户在对战中不能中途更换Bot,但可以重新开始新的一局。为了确保投票公正,对话中禁止询问模型身份,投票后也不支持改票。用户可以发起多轮会话,从多个角度考察哪个模型表现更好,只有在获得至少一轮完整回复后才能投票。
投票结果直接影响模型的评分,所以每投一票都得认真对待。任何试图暴露模型身份的行为,都会导致该票无效,且不影响模型评分。
说白了,这套机制本质上是一种主观评测——衡量的是模型输出与人类偏好或期望的匹配度。你可以通过多轮会话提出不同的问题,尽可能全面地覆盖模型的能力范围。评测问题既可以是答案固定的客观题,也可以是答案不固定的开放性、半开放性问题,综合评估模型的实力。
为了准确、全面、系统化地评估大语言模型的能力,并向Bot开发者提供有参考价值的榜单,扣子参考了Chatbot Arena的评分机制,采用Bradley-Terry模型进行满意度比较和全方位评测。
Bradley-Terry模型类似于Elo评分系统,是一个成熟的统计模型,适用于分析成对比较数据。它最早广泛用于体育比赛分析——假设每个参赛者都有一个固定的实力参数,比赛结果的概率由这些参数决定,通过Logistic函数计算一支队伍相对于另一支队伍的胜率,从而更准确地估计模型之间的相对实力。
(评测机制详情可参考扣子官方文档:https://www.coze.cn/docs/guides/model_compete_overview)
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
BuuPo官网在哪下载 最新官方下载安装地址
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
无尽花界时装合辑
免费影视剧APP推荐
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短视频软件推荐
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc