来源:互联网 更新时间:2026-06-26 13:42
英伟达最近放出了一个相当实用的新工具。只需要在代码里加一行import,MoE大模型微调的速度就能直接拉到
这个新方案叫做
它的底子是Hugging Face Transformers v5,但英伟达的团队做了些很聪明的工程优化——不改API、不改代码结构,只添一行import,就能让MoE模型的微调效率大幅提升。

实验数据摆在这里:相比Hugging Face原版Transformers v5,NeMo AutoModel在MoE微调中实现了
拿Qwen3-30B-A3B来说,在单节点8×H100 80GB GPU上,每GPU每秒吞吐量直接从3075飙到了11340——整整3.69倍。
MoE已经是当前前沿模型的主流架构了,但想要把它训好,其实门槛不低。
专家并行、通信融合、kernel优化……这些工程细节,每一项都需要配套的基础设施来支撑。
HuggingFace的Transformers v5是目前用得比较多的MoE训练“通用底座”。v5版本增强了对MoE的原生支持,引入了expert backends、dynamic weight loading、分布式执行等一系列基础能力。

英伟达的思路很清晰:站在这个肩膀上,
具体来说,NeMo AutoModel在Transformers v5的基础上,集成了三项关键技术:
这个技术主要用来降低内存压力。
EP把专家权重分散到了多个GPU上,每张GPU不再完整持有所有expert,只保留其中一部分参数。
举个例子,8张GPU上设置ep_size=8,专家权重就被均匀分布到8块GPU上,
从实际测试来看,在Qwen3上,这项技术能将峰值内存从68.2 GiB降到48.1 GiB,降幅29%。对于Nemotron Nanomo模型,内存占用从62.1 GiB降到42.5 GiB,降幅32%。
释放出来的内存空间,可以用来支持更大的批次和更长的序列。

DeepEP的核心思路是让计算和通信“跑在一起”。
传统方式下,token分发和专家计算之间有明显的通信成本。DeepEP把token分发和组合操作整合进优化后的GPU内核,实现了通信过程和专家计算的有效重叠。
这个内核为各类核心运算提供了加速。
它提供了融合注意力机制、线性层和RMSNorm等实现,不光加速MoE层,普通Transformer层也能受益。
总结下来,对于已经用上Transformers v5的开发者来说,英伟达NeMo AutoModel提供了一个非常友好的升级路径:
只需加上一行import代码,就能在MoE微调中获得3倍的速度提升。

在Qwen3-30B-A3B和Nemotron 3 Nano 30B-A3B上,相较于Transformers v5,该方案实现了3.4到3.7倍的训练吞吐量提升,内存消耗同步降低了29%到32%。
英伟达还展示了Nemotron 3 Ultra 550B A55B在16个H100节点、128张GPU上的全参数微调结果。

TPS/GPU为815,TFLOP/s/GPU约为293,峰值内存为58.2 GiB。
这里没有跟v5做对比,原因很简单——Transformers v5在这种规模下,直接撑爆内存了。¯\_(ツ)_/¯
代码、配置和基准测试脚本都已经放在GitHub上了,感兴趣的可以自取:https://github.com/NVIDIA-NeMo/Automodel/tree/blog/transformers-v5-automodel/blog_experiments
具体使用指南在这里:https://docs.nvidia.com/nemo/automodel/latest/get-started/hf-compatibility
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
美好的简约网名男生(精选100个)
植物娘大战僵尸电脑端与手机端存档转移的方法
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
腾讯元宝怎么用来分析股票基金的基本面信息?
盖乐世社区怎么删除帖子?盖乐世社区个人发布内容撤回步骤
wallpaper壁纸声音怎么开启
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
短剧《嫡女她是山大王》剧情介绍
问题:CIA币好不?Cia Protocol币今日上线:价格预测、代币经济学和未来潜力
看韩漫的APP推荐 2026免费韩漫阅读软件大全
OpenAI 调整手机端 ChatGPT,提示词可提前选 AI 响应档位
免费观看国外短视频的app有哪些 观看国外短视频的软件下载
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc