来源:互联网 更新时间:2026-06-28 14:08
快科技6月28日消息,据媒体报道,北京大学与深度求索(DeepSeek)近日联合发布并开源了大模型推理加速框架DSpark,该框架直击大语言模型高并发推理场景下的效率瓶颈。
在同等吞吐量条件下,DSpark可使单用户文本生成速度提升60%至85%,相关论文及训练代码已同步上线GitHub开放共享。
当前大语言模型普遍采用自回归生成机制,每生成一个词元均需执行完整前向计算,致使对话响应延迟居高不下。推测解码已成为主流提速路线,但现有方案存在明显局限:串行草稿模型随生成长度增加耗时显著攀升,并行草稿模型则在长序列中候选接受率快速衰减,高并发下算力浪费严重,系统吞吐量受限。
针对上述两大核心痛点,DSpark构建了双重创新优化机制。在候选生成层面,采用半自回归架构:依托改良并行主干网络一次性输出候选基础特征,辅以轻量化顺序模块补充文本依赖关系。
仅两层Transformer结构即可超越五层传统并行模型性能,兼顾生成速度与候选质量。在验证调度层面,创新引入置信度调度验证机制,通过硬件感知前缀调度器,动态结合实时算力负载与候选存活概率分配算力资源,优先验证高可靠文本片段,显著减少无效计算损耗。
研究团队基于通义千问3、Gemma4等主流大模型,在数学推理、代码编写与日常对话三大任务中展开多场景测试。结果显示,DSpark单轮有效生成长度全面优于Eagle3、DFlash两种主流基线模型。
以Qwen3-4B为例,DSpark相比Eagle3提升30.9%,相比DFlash提升16.3%,既保留了并行架构的首位生成速度优势,又有效缓解了长序列候选有效率的衰减问题。
工程落地层面,研发团队完成了多项底层系统优化。训练阶段优化数据传输逻辑,采用序列打包策略降低算力与内存消耗;部署端设计异步调度模式,避免GPU流水线卡顿,并通过逻辑与物理计算解耦,灵活适配动态变长验证需求,同时兼容主流CUDA硬件生态。
DSpark已率先落地DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务引擎。线上真实流量实测表明,在不同用户响应速度标准(SLA)下,系统整体吞吐量实现跨越式增长。
V4-Flash引擎在保证单用户80 token/s生成速度时,吞吐量较原有基线提升51%;要求120 token/s高速输出时,吞吐量优势高达661%。
V4-Pro引擎在35 token/s和50 token/s标准下吞吐量分别提升52%和406%。系统还能依据在线并发量自动调节验证文本长度,低负载时充分释放算力,高负载时平滑控制资源竞争,灵活适配多变业务流量。
据介绍,DSpark仍存在一定优化空间,尤其在复杂低适配查询场景下,完整候选块生成会产生固定算力开销。当前,深度求索已在GitHub DeepSpec项目中开源DSpark、DFlash、Eagle3全套训练代码、评估工具与模型权重,为行业低成本落地高性能大模型推理服务提供完整技术方案,助力人工智能产业降低线上部署成本、提升用户交互体验。
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
全链网:黄金价格因美元的走强及利率担忧而下跌
植物娘大战僵尸电脑端与手机端存档转移的方法
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
动漫《柚木家的四兄弟》剧情介绍
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
美好的简约网名男生(精选100个)
拼多多品牌好货是官方店铺吗?拼多多品牌好货是官方还是自营店铺
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
腾讯元宝怎么用来分析股票基金的基本面信息?
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc