来源:互联网 更新时间:2026-05-31 16:46
多模态搜索领域,最近有个新玩家引起了不小的关注。小红书和剑桥大学联手,推出了一个名为HyperEyes的并行多模态搜索智能体。这名字听起来就挺“犀利”的,它的核心,在于做了一件碘伏性的事:把过去“先定位、再搜索”的两步走流程,彻底揉成了一个动作。
简单来说,传统方法就像让你在一张合影里找人,你得先一个个把人脸框出来,再挨个去数据库里比对。而HyperEyes的思路是,我一眼看过去,就能同时把所有人的信息都给找出来。它首创了一种叫“UGS”(统一有依据搜索)的范式,把视觉定位和检索这两个步骤融合成了一个“原子动作”。这意味着,它可以在单轮交互内,并发地定位并搜索图片中的多个实体。
为了实现这种高效率,团队祭出了一个“双粒度效率感知强化学习”框架。效果如何?数据说话:其30B参数版本在六个主流基准测试中,准确率比同规模最强的开源模型高出9.9%,而工具调用轮次却减少了惊人的5.3倍。这基本上是在准确率和效率之间,找到了一个相当漂亮的帕累托最优点。
这个智能体到底能干什么?我们拆开来看:
光看功能可能觉得有点“黑箱”,我们稍微深入一下,看看它背后的技术逻辑是如何支撑起这些能力的:
如果你对这项技术感兴趣,想自己上手试试,大致可以遵循以下路径:
说了这么多,它到底强在哪里?与现有方案相比,优势是全方位且显著的:
空口无凭,我们把它和市场上其他知名的视觉搜索智能体放在一起对比,差距一目了然:
| 对比维度 | HyperEyes-30B | DeepEyes-V2 | VDR |
|---|---|---|---|
| 开发团队 | 小红书/剑桥大学 | 小红书 | 未公开 |
| 搜索范式 | 并行并发(UGS) | 串行裁剪-搜索 | 串行深度搜索 |
| 平均工具轮次 | 2.2 | 3.6 | 11.6 |
| 6基准平均准确率 | 64.0% | 39.1% | 54.1% |
| IMEB准确率 | 46.7% | 18.0% | 21.2% |
| CAS效率评分 | 0.910 | 0.119 | 0.014 |
| 核心机制 | TRACE+OPD双粒度RL | 工具奖励激励 | 多轮深度推理 |
| 错误级联风险 | 免疫(原子动作) | 高风险 | 中等风险 |
这样一种能“一眼多看”的智能体,能在哪些地方大显身手?想象空间其实很大:
总的来说,HyperEyes的出现,不仅仅是一个模型性能的提升,更代表了一种解决复杂视觉搜索问题的新范式。它将“并行”思想贯穿到底,从底层动作设计到上层训练评估,为我们展示了多模态智能体在效率和精度上实现双重突破的一种可能路径。对于需要处理海量、复杂视觉信息的应用来说,这类技术无疑值得密切关注。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
免费影视剧APP推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
好用的手环阅读app下载安装
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
人声接近真人!OpenAI一口气更新三款超强语音AI
短视频软件推荐
短剧《情绪超市》剧情介绍
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
《梦幻西游》出道人金价走势解析-云游道人影响解析
免费看电影的软件推荐
官姓可爱谐音网名女生(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc