来源:互联网 更新时间:2026-06-09 15:41
快科技6月9日消息,日前,小米正式上线Xiaomi MiMo-V2.5-Pro-UltraSpeed模式。
据介绍,
今日,小米技术”公众号发文科普了什么是1000 tokens/s,以及这一速度到底有多快。
小米表示,token即词元,是大模型中的计量单位,类似日常买菜时使用的斤”两”。
1000 tokens/s也就是1000 Tokens Per Second,
如果把大模型推理想象成打字”,TPS就是它的打字速度”,数字越高,生成速度越快。
粗略换算,1个token约等于1到2个汉字,或0.75个英文单词。
也就是说,1000 tokens/s大约相当于每秒生成750个英文单词,或上千个汉字。
作为对比,普通大模型输出速度一般为50到130 TPS,接近人在朗读;国内顶尖大模型输出速度约为400 TPS,已经像快语速播报。
而小米此次上线的UltraSpeed模式,
那么,小米是如何实现这一速度的?
据了解,小米采用了FP4量化技术,只对精度最不敏感的MoE专家模块进行压缩,其余部分保持原有精度,并通过量化感知训练边压缩边补偿,实现模型体积大幅降低,同时尽量保持能力不受影响。
同时,小米还采用DFlash投机解码技术,让小模型一次并行抢答”一整块token,再由大模型进行无损验证。
猜对就采纳,猜错则打回,最终输出结果与原模型完全一致,但验证方式从逐字确认”变成了整块确认”,从而大幅提升效率。
此外,TileRT推理系统也发挥了关键作用。
通过常驻内核和异构流水线,它可以尽可能消除微秒级运行中计算步骤之间的启动、等待、搬数据等空隙,在不改变计算结果的前提下,充分压榨硬件时间。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
免费影视剧APP推荐
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
抖音最火沙雕男生网名(精选100个)
网络热词聊污是什么意思
帅气继父网名女生可爱英文(精选100个)
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
我的末日校园海斗手游上线时间是哪天
蒙古上单是什么梗
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
免费看电影的软件推荐
韦一敏是什么梗
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
晨字沙雕网名大全女生(精选100个)
帅到极致的网名女生霸气(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc