来源:互联网 更新时间:2026-06-05 14:24
安全研究员 Kasra Rahjerdi 最近搞了个挺有意思的实验——他专门搭建了一个故意留漏洞的图书评论应用,然后让几款主流大语言模型来“抓鬼”。这个应用里埋了个暗雷:文件里直接暴露了谷歌移动端的后端服务凭据,模型得自己解包、识别,然后拿着这把钥匙去直捣数据库。说白了,就是一场模拟真实漏洞场景的生存考验。

每轮测试限时2小时、预算10美元,条件相当苛刻。结果一出来,差距肉眼可见。GPT-5.5 的表现最扎眼:10次尝试里成功破解了7次,解题率一骑绝尘。报告里提到一个细节——这家伙几乎在解包完成的同时就锁定了关键凭据,完全没被花里胡哨的应用界面带偏。
反观 Gemini,这次的表现多少有点让人意外。Gemini 3.1 Pro Preview 在大多数任务刚开始就直接触发了内置的拒绝机制,结果它的 Token 消耗量成了全场最低,几乎等于“还没开始就结束了”。
GPT-5.5 虽然成功率最高,但每次成功的平均成本高达9.46美元——对这个数字敏感的团队,估计得掂量一下钱&包。这时候,DeepSeek V4 Pro 就显出了另一番价值。它10次测试只成功了3次,但每次成功的平均花费只有0.62美元。算一笔账:单纯按单次成功的成本来算,DeepSeek V4 Pro 的花费还不到 GPT-5.5 的十五分之一。虽然它在失败的尝试里偶尔会误把认证接口当成后端去调,但如此夸张的成本优势,对于需要大规模部署安全检测的团队来说,诱惑力实在不小。
下饭影视APP下载安装指南
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
《Off Campus》第二季官宣:这对CP还在,但不再是主角
下载浏览器app下载安装选择推荐
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
抖音最火沙雕男生网名(精选100个)
网络热词聊污是什么意思
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短剧《情绪超市》剧情介绍
短视频软件推荐
免费看电影的软件推荐
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
KuCoin基本面分析
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
洛克王国世界S2赛季狂欢怪谈介绍
卡厄思梦境哀嚎螺旋塔攻略 哀嚎螺旋塔怎么玩
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc