来源:互联网 更新时间:2026-05-28 10:16
最近,快手开源了一款名为Keye-VL-2.0-30B-A3B的多模态大模型,定位为30B参数级别的主力基座。这款模型有个挺有意思的突破:它首次将DSA稀疏注意力机制引入了多模态场景。这意味着什么?简单说,它现在能支持高达256K的超长上下文,可以对小时级别的视频进行毫秒级的时序推理。在TimeLens这个专门测试时序理解的基准上,它的表现甚至超过了谷歌的Gemini-2.5-Pro和Gemini 3 Flash。更关键的是,它首次解锁了代码生成、工具调用和搜索等Agent协作机制,让模型从一个单纯的“观察者”,进化成了能主动解决问题的“行动者”。
那么,这个模型具体能做什么?它的功能清单相当硬核:
这些强大功能的背后,是一系列扎实的技术创新:
对于想上手尝试的开发者来说,部署路径是清晰的:
综合来看,这款模型在几个关键维度上展现了明显的竞争优势:
对技术细节感兴趣的研究者和开发者,可以通过以下官方渠道获取资源:
为了更直观地定位它的能力,我们将其与谷歌的Gemini系列进行对比:
| 对比维度 | Keye-VL-2.0-30B-A3B | Gemini-2.5-Pro | Gemini 3 Flash |
|---|---|---|---|
所属公司 |
快手(Kuaishou) | ||
模型规模 |
30B | 未公开(Pro 级) | 未公开(Flash 级) |
核心架构 |
DSA 稀疏注意力 + 多模态融合 | 闭源多模态架构 | 闭源多模态架构 |
超长上下文 |
256K Token |
长上下文 | 长上下文 |
ActivityNet-TimeLens (视频动作定位) |
mIoU 58.5 |
mIoU 58.1 | mIoU 57.0 |
Charades-TimeLens (日常动作时序解析) |
mIoU 58.4 | — | mIoU 61.2 |
QVHighlights-TimeLens (高光时刻提取) |
mIoU 70.1 |
— | mIoU 49.5 |
Agent 协作能力 |
首次解锁 |
支持 | 支持 |
开源情况 |
完全开源 |
闭源 | 闭源 |
基于上述能力,它的应用前景非常广泛:
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
免费影视剧APP推荐
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
帅气继父网名女生可爱英文(精选100个)
抖音最火沙雕男生网名(精选100个)
网络热词聊污是什么意思
蒙古上单是什么梗
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
韦一敏是什么梗
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
免费看片软件下载地址推荐
免费看电影的软件推荐
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
有寓意的易经网名男生(精选100个)
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
晨字沙雕网名大全女生(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc