来源:互联网 更新时间:2026-06-14 13:54
近日,谷歌DeepMind扔出一枚开源新弹——

我们熟悉的大多数主流大模型,比如GPT、Gemini这些,走的都是自回归路线——从左到右,一个字一个字地往外“蹦”,就像打字机一样。这种机制在云端高并发批处理时效率尚可,但一旦放到本地GPU上推理,内存带宽就成了瓶颈,大量算力都浪费在等待数据搬运上。
DiffusionGemma不这么干。它更像我们熟知的图像生成模型:先初始化一块由256个随机占位Token组成的“画布”,然后通过多轮并行去噪,逐步优化整块内容,最终一次性输出完整文本。所有Token同时生成、同时优化。瓶颈从内存带宽转移到了计算能力上,GPU的Tensor Core终于能放开手脚了。
更值得关注的是,它还支持
DiffusionGemma采用了
速度表现到底如何?我们直接看数据:
| 硬件平台 | 生成速度 | 对比自回归模型 |
|---|---|---|
| 单块H100 | 1000+ tokens/s | 约4倍 |
| DGX Station | 2000 tokens/s | 约4倍 |
| DGX Spark | 150 tokens/s | 约4倍 |
| RTX 5090 | 700+ tokens/s | 约4倍 |
采样速度达到1479 tokens/秒,单次生成开销仅为0.84秒。
谷歌的态度相当坦诚:DiffusionGemma的定位就是面向研究者和开发者的
它的速度优势,主要体现在
但如果你追求的是最高输出质量,特别是科学推理、复杂逻辑推演这类任务,标准Gemma 4依然是更可靠的选择。DiffusionGemma的真正价值,并不在于要替代谁,而在于证明了另一条路径走通了:文本生成不一定非要逐字排队,并行扩散同样行得通——而且在本地硬件上,它还能走得更快。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
帅到极致的网名女生霸气(精选100个)
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
帅气继父网名女生可爱英文(精选100个)
蒙古上单是什么梗
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
韦一敏是什么梗
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
作家助手如何上传自制封面 作家助手如何设置小说的封面
如何在夸克浏览器中开启网页视频的倍速播放功能?
抖音最火沙雕男生网名(精选100个)
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
有寓意的易经网名男生(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc