来源:互联网 更新时间:2026-05-29 11:12
316 道进攻性网络安全任务,GPT-5.5 解出了 292 道,正确率高达 92.4%。这份由澳大利亚研究机构 Lyptus Research 在 5 月 27 日发布的报告,直接宣告了 GPT-5.5 让他们的整套评估体系彻底饱和。

测试覆盖了 7 个基准,从漏洞利用、CTF 夺旗到真实 CVE 复现,每道题都配有人类安全专家的完成时间作为基线。GPT-5.5 展现出的能力,已经可以媲美顶级黑客团队。更关键的是,剩下的那 24 道未解难题,已经不足以画出一条有统计意义的能力曲线。研究团队的判断直截了当——这套评估方法对这类任务"不再适用"。
往回看,2025 年 12 月开始搭建这套测试时,Lyptus 团队选择的是当时全球能找到的最难的题目。到 2026 年 3 月第一版报告出炉,数据就已经出现了饱和的苗头。再到 5 月,饱和变成了板上钉钉的事实。六个月的时间,从"最难"到"不够用"。
真正值得警惕的,是这条能力曲线的斜率。先说几个核心判断:Lyptus 从 2024 年开始系统追踪,拟合出的结论令人震惊——AI 的进攻性网络安全能力每 5 到 6 个月就翻一倍。

不妨看几组具体数据:2026 年初,Claude Opus 4.6 的时间地平线是 3.2 小时,GPT-5.3 Codex 是 3.1 小时。仅仅两个月后,GPT-5.5 直接拉到了 5.1 小时。而且,只要给够算力,冲过 12 小时的测量上限都不是问题,图表甚至画不下。

而另一个变量——Token 预算——更能说明问题。GPT-5.5 在最难的基准 CyberGym 上,200 万 Token 预算下的正确率是 54.4%;当预算推到 5000 万 Token,正确率飙升到 86.4%。

同一个模型,仅仅因为算力投入的增加,成绩就涨了 32 个百分点。

英国人工智能安全研究所(AIUK AI Safety Institute)的研究也给出了类似结论:即使把 Token 预算推到 1 亿,能力仍在增长,完全看不到平台期。也就是说,所有公开的基准测试成绩,都只是在有限预算下跑出来的结果。真实能力的天花板,远比账面数字要高。
面对这样的能力飞跃,头部实验室已经被迫做出了选择。Anthropic 在 4 月发布了 Claude Mythos Preview 模型,但决定不公开——理由是网络安全能力过强,不适合直接开放。作为配套,他们同时推出了 Project Glasswing,将 Mythos 部署给关键基础设施的防御方使用。

OpenAI 则给 GPT-5.5 的网络安全能力评级为"High",仅比最高级"Critical"低一档,所有攻击相关能力都通过"Trusted Access for Cyber"门控系统进行管控。METR 对 Mythos 的独立评估同样撞上了能力的顶棚——拟合出的时间地平线至少 16 小时,但他们对这个数字不敢给出点估计,只表示"应保持谨慎"。
控制谁能用,是目前唯一能拿得出手的策略。但留给决策者的窗口正在快速缩小。Lyptus 测量了一个至关重要的指标——"适应缓冲期":闭源前沿能力传导到开源模型的时间差。在进攻性网络安全领域,这个差距大约在 5.7 到 13.1 个月之间。按这个速度推算,Mythos 和 GPT-5.5 级别的攻击能力,年内就可能以开源形式落到任何人手里。
回到最核心的问题:没人能准确说出现在大模型的上限到底有多强。这才是最让人不安的部分。
时间地平线方法论的设计逻辑很简单——用比模型能力更难的任务来锚定曲线的拐点。但当模型把所有任务都做完,拐点便消失了,曲线无法拟合。评估体系不是被证伪了,而是被能力增长甩在了身后。

要造出更难的测试,需要更多的时间和人力。可现实是,模型能力每半年翻一倍,而测试开发周期远长于此。更关键的是英国人工智能安全研究所的发现:只要攻击方愿意多烧算力,就算有更难的题,照样能做穿。评估追不上能力——这个结构性困境已经非常明显。
放到更大的框架下看,信号已经相当明确。一个高度专业化的领域里,人类为 AI 能力设定的标尺已经被干得粉碎。

网络安全恰好是最容易量化的领域之一——有明确的成功判据:漏洞找到或没找到,系统攻破或没攻破。连这种硬指标领域的评估都跟不上了,那些更模糊、更难量化的能力维度呢?每 6 个月翻一倍的增速如果维持下去,一年后的能力就是今天的 4 倍,两年后 16 倍。通往 AGI 乃至 ASI 的路上,被干碎的不会只有这一把尺子。看不到边界,比边界本身更危险。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
BuuPo官网在哪下载 最新官方下载安装地址
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
免费影视剧APP推荐
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短视频软件推荐
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc