来源:互联网 更新时间:2026-04-14 19:49
4月30日消息,小米官方今天正式宣布,开源首个为推理(Reasoning)而生的大模型——Xiaomi MiMo。
据介绍,Xiaomi MiMo在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo仅用7B的参数规模,超越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。

官方表示,MiMo 推理能力的提升,由预训练和后训练阶段中数据和算法等多层面的创新联合驱动。包括:
预训练:核心是让模型见过更多推理模式
数据:着重挖掘富推理语料,并合成约200B tokens推理数据。
训练:进行了三阶段训练,逐步提升训练难度,总训练25T tokens。

后训练:核心是高效稳定的强化学习算法和框架
算法:提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定RL训练。
框架:设计了Seamless Rollout系统,使得RL训练加速2.29倍,验证加速1.96倍。

所有技术细节已经Open,见技术报告。
MiMo-7B全系列已开源MiMo-7B 已开源4个模型至HuggingFace。

本文标签: #小米 #开源
洛克王国世界雪影娃娃捕捉攻略 洛克王国世界雪影娃娃怎么捕捉
《洛克王国 世界》开服必看 抢先入手16只完美精灵 开局就赢在起跑线
牛奶价格卷起来了:多家品牌搞促销
于东来回应退休:只是表面退休了 实际还是不退
洛克王国世界伊利斯怎么打
儿子去世 名下房产被判全归养母:生母缺席成长 养母照顾长大
起猛了 在成都看到关公开公交:三国寻梦线巴士正式推出
能穿地的 “Wi-Fi” 无线网络成功了!可深入地表下100米 有望集成到手机中
龙胤立志传铸剑山庄门派有什么特点
守塔不能停官网首页入口
张雪峰追悼会将在明日举行 生前曾有三次自救机会 都被他错过了
Token经济已来 京东云Coding Plan上线
QQ经典农场快速冲级攻略
斗熊舞是我国哪个民族的传统舞蹈
龙胤立志传江湖绝世武学什么效果
Switch2 Game Cube新增游戏《宝可梦XD暗之旋风黑暗洛奇亚》
超自然行动组如何快速找到棺材 超自然行动组棺材位置一览
洛克王国世界可可果商店兑换哪些
洛克王国世界烈火战神超进化条件是什么
保卫向日葵什么阵容强 保卫向日葵强力阵容免费获取攻略
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc