热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >谁是 Agent 最强守门员?首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

谁是 Agent 最强守门员?首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

来源:互联网 更新时间:2026-06-13 14:05

直接说几个判断:Agent技能生态的安全问题,已经从"有没有工具"进入到"如何证明有效"的阶段。SkillTrustBench这个基准的发布,正是为了给行业一个可落地、可复现、可持续更新的客观标尺。

导语

Agent技能快速融入应用生态,正在成为全新的安全边界和供应链攻击入口。防止恶意Skill造成数据泄露或Agent劫持,已经成为行业的共识。然而,在实际落地中,用户常常陷入两难:一些扫描方案追求高召回,却频发误报,导致告警疲劳;另一些方案虽然判定精准,但在面对隐蔽的对抗手法时容易漏报。更麻烦的是,基于LLM的扫描器切换底层模型时,研判偏好差异显著。行业需要一个客观的衡量标准,既能度量安全方案的检测效能,也能评估Skill本身的安全可信度。

针对这些痛点,

腾讯朱雀实验室

联合

香港中文大学(深圳)吴保元教授课题组

发布了

SkillTrustBench

——这是首个面向真实落地场景、兼顾Agent Skills安全可信度与外部扫描方案检测效能的双重评测基准。该基准从主流技能市场的62,652个Skill中提炼出5,520个评测用例,涵盖九大类常见安全威胁。

从首期评测数据来看,有几个关键点值得关注:

  • 大模型底座表现:

    本次评测中,

    Claude Opus 4.6与GLM 5.1

    在安全扫描场景下展现出极强的语义推理与安全约束理解能力,处于第一梯队;

    DeepSeek V4 Flash与Hy3 preview

    则在性能与成本之间取得了优异平衡,性价比优势明显。
  • 开源工具效能:

    以OpenClaw + Skill Vetter为代表的轻量级开源审计方案,已具备发现多数恶意Skill风险的基础能力,但在复杂噪声干扰下的误报控制上仍有较大优化空间。
  • Skill本身的安全可信度:

    评测发现,大量非恶意Skill同样存在不可信隐患。硬编码凭证、敏感权限滥用、易受命令注入等不安全编码缺陷广泛存在。这些行为虽然主观无害,但因其自身的安全脆弱性,极易成为供应链劫持的二次攻击入口。

01 Agent Skills的攻击面正在扩大

Agent Skills的危险性来自它的复合性。Skill同时跨越自然语言、代码、依赖、权限和运行时上下文。它既可以在文档中直接向Agent下达指令、利用网络请求向外传输数据,也可以通过执行本地脚本、安装外部依赖或篡改会话记忆来实施隐蔽攻击。

2026年1月底的ClawHa voc事件中,1,184个恶意Skill被上架到ClawHub市场,涉及24.7万次安装。随后Snyk发布的ToxicSkills报告显示,市场中36.82%的Skill至少存在一个安全问题。论文SkillProbe审计发现,高下载量并不等于更安全——ClawHub中超过90%的高热度Skill仍然存在风险。

2026年4月,腾讯朱雀实验室用A.I.G(AI-Infra-Guard,腾讯朱雀实验室开源的一站式AI红队安全测试平台)对ClawHub上Skill进行了全量扫描。研究显示,ClawHub在90天内从不足2,000个Skill增长到超过50,000个;即便平台后续上线了安全检测机制,Skill生态中的风险信号仍然密集。

第一,恶意Skill已呈现出规模化、矩阵化的生产迹象。

五万个Skill背后共有15,427名开发者,但Top 20发布者合计发布5,422个Skill,占总量12.9%。极端账号3个月发布955个Skill,日均10.6个。多组命名相近、发布时间交替的账号矩阵说明,Skill生态已经具备批量制造、批量投放、批量伪装的条件。

第二,权限组合天然接近数据外泄链路。

在近五万个Skill中,27,818个声明了网络请求权限,占比74.6%。联网本身不是问题,但当"读文件+联网"成为大量Skill的常见组合时,恶意外传就可以隐藏在正常功能流量中。

第三,外联通道已经非常分散。

全量扫描共发现246,378条URL,指向29,196个不同域名。这些URL既可能是正常API、文档、依赖源,也可能成为远程控制、数据回传、链上交互或二阶段载荷下载的通道。

02 现有扫描与评测为什么不够

ClawHa voc事件后,Skill市场和安全厂商已经开始建设扫描机制。以ClawHub为例,平台新增了内置的LLM安全评估和VirusTotal的外联检测。这类机制能有效拦截大部分恶意指令直接写在SKILL.md文档里、直接下载运行木马程序的粗暴攻击。

但攻击者很快进入下一阶段:不再把恶意逻辑写得明显,而是利用输入截断、文件类型盲区、源码与分发产物不一致、企业合规话术和社会工程解释来绕过扫描。

2026年6月,Trail of Bits针对ClawHub、Cisco skill scanner以及skills.sh集成的多个扫描器进行了绕过测试。他们构造的样本包括:

这些不是极端高级攻击,而是利用了当前扫描方案的能力边界:文件是否完整读取,特殊文件是否展开分析,字节码是否反编译,LLM是否会被合理解释说服。

另一个问题是当前行业中众多开源Skill安全扫描方案之间缺少共识。

2026年5月底,OpenClaw官方发布的ClawHub Security Signals数据集覆盖了ClawHub中67,453个公开Skill,并进一步对比分析了ClawHub官方市场原有内置静态分析结果、VirusTotal分析结果和NVIDIA SkillSpector扫描结果三类信号。结果显示,任意两类扫描的阳性样本重合度最多只有10.4%;只有0.69%的恶意Skill被三类扫描方案同时发现;81.9%的被标记样本只被单一扫描方案发现。

这意味着,不同扫描方案看到的是不同风险切面,甚至对同一批样本的判断也缺少稳定共识。因此,仅有众多的开源扫描器还不够,行业还需要一个公开、可复现、可持续更新的评测基准,回答几个更基础的问题:

  • 哪个方案更能发现恶意Skill?

  • 哪个方案更容易误报正常Skill?

  • 同一个方案换不同底层模型会怎样?

  • 哪些攻击类型最容易漏掉?

  • 哪些正常行为最容易被误伤?

SkillTrustBench正是围绕这些问题设计的。

03 SkillTrustBench:从真实Skill生态构建评测标尺

SkillTrustBench当前版本从62,652个真实Skill出发,来源覆盖主流技能市场与开源社区。经过清洗、去噪、平衡采样和攻击注入,最终形成5,520个评测用例,覆盖九大类Skill常见威胁。

样本分布如下:

这里最关键的设计思路是:样本数量并不是全部,样本结构才是核心。

如果一个评测集只包含显而易见的恶意样本,扫描方案很容易被引导成看到危险命令就告警的规则系统。这样的工具在测试里可能很好看,但进入真实平台后会制造大量误报:系统管理Skill需要调用shell,文档处理Skill可能使用临时共享库,官方安装脚本可能出现curl | bash,开发工具Skill可能需要拉取依赖或访问外部API。

毕竟在实际场景中,调用敏感API不等于恶意,而看似合规的解释也可能是伪装。因此,SkillTrustBench同时评估三类能力:

  • 是否能抓住恶意Skill;

  • 是否能区分suspicious与malicious;

  • 是否能控制对安全样本的误报。

在风险分类上,SkillTrustBench采用按攻击手段划分的T01-T09体系,而不是只按攻击后果分类:

此外,评估Skill本身的安全可信度,绝非简单的"非黑即白"恶意检测。我们在风险类别中特意引入了"T09不安全编码行为"。

真实的Agent生态中,大量由正常工程人员开发的Skill主观上并无恶意,但由于缺乏安全编码规范,其代码中往往伴随着硬编码凭证、敏感权限过度声明、缺乏输入校验等不可信缺陷。这些缺陷如同软件供应链中的潜伏漏洞:即使开发者主观无害,其不安全的代码仍可能被黑客通过提示词注入或间接指令劫持,成为入侵系统的隐性通道。

04 首期评测发现:高召回不等于可落地

SkillTrustBench首期评测包含两组核心榜单:一组比较不同扫描工具,另一组比较同一扫描流程在不同底层模型上的表现。

首期横评对比了当前开源生态中关注度较高的几款开源Skill扫描方案:

  1. Skill Vetter (OpenClaw / Hermes Agent)

    :当前下载量最高的安全审计Skill,可以快速部署在各类Agent框架中,在Skill安装前检查风险并在对话中提示用户。
  2. Cisco Skill Scanner

    :Cisco AI Defense开源的检测工具,结合了静态规则、LLM语义分析与行为数据流分析,重点扫描提示注入、数据泄露及恶意代码。
  3. NVIDIA SkillSpector

    :采用两阶段检测架构。第一阶段利用AST行为分析、依赖项校验、污点追踪及YARA规则进行快速初筛;第二阶段引入LLM进行上下文语义分析,用以过滤误报并输出解释。

在扫描器横评中,统一使用DeepSeek v4 Flash作为底座模型。最新公开结果如下:

从最新榜单来看,

Skill Vetter + OpenClaw

的组合在召回率与综合分值(F1)上表现最突出;

Skill Vetter + Hermes Agent

组合综合排名第二,但误报最少。

Cisco Skill Scanner

的召回率不错,但误报率达到24%。NVIDIA SkillSpector的误报较少,但漏报最多。

这组数据说明了一个关键问题:安全检测不能只看召回率或误报率。在真实Skill市场上架前审计、企业内部CI/CD流程和Agent平台里,高误报会直接损害Skill的可用性。如果一个扫描方案把大量正常Skill标成恶意,最终结果往往不是更安全,而是用户选择忽略提示。能抓住恶意样本是第一步,能放过正常样本,才是进入生产流程的前提。

在模型底座评测中,SkillTrustBench固定扫描器配置,仅替换底层推理模型,观察不同模型在作为Skill安全扫描工具时的表现:

  • 能力最强之选:Claude Opus 4.6与GLM-5.1。

    两者在风险推断、指令关联分析和意图识别方面表现出较好的均衡性,综合分值最高。不过相比之下,GLM 5.1的评测Token成本相对更低(不到Claude 4.6 Opus的10%)。
  • 性价比之选:DeepSeek-V4-Flash与Hy3 Preview。

    整体表现相对均衡,误报控制较好,适合作为低成本的安全评测参照基线,适用于Skill市场上架前扫描这类高任务量的场景。
  • 偏向性特征表现:

    • Gemini 3.5 Flash

      在本组评测中展现出较高的精确率与极低的误报率,但在复杂样本的召回能力上相对保守,会有部分漏报。
    • GPT-5.5

      表现出较高的召回率,但误报率高达18.67%,在安全性研判上更偏向于"宁可误报、也不漏过"的风格。

对于模型厂商来说,SkillTrustBench不仅测试了模型的语义理解,还考验其对代码逻辑、多步指令的链式推理和敏感边界的划定能力。过去,这类垂类安全任务场景的能力比较一直缺少足够全面权威的标尺,SkillTrustBench旨在为大模型在此类安全任务推理中提供一个客观的评估基准。

05 共建安全可信的Agent Skills生态

当前,Agent Skill安全扫描的核心问题已经从"有没有工具"迈向"如何证明有效"的新阶段。由于Skill兼具代码与自然语言的双重属性,且攻防对抗动态演进,行业长期缺乏统一标尺,导致各方的评估结果各说各话,企业难以选择合适的扫描方案。

SkillTrustBench的发布,有望为行业提供AI技能安全检测的客观评估基准,推动检测能力从定性走向定量。作为一项持续演进的项目,我们将紧跟最新的攻防实践,不断充实评测集,也希望各方能够加入共建:

  • 大模型厂商:提交新模型评测结果,评估模型在Agent Skill安全审查场景中的能力水平;
  • Agent平台与Skill市场:评估并优化内置的安装前安全审计方案;
  • 安全扫描工具:提交新版本扫描方案,横向比较检测能力演进;
  • 安全研究者:提交真实攻击样本、绕过案例和良性高风险样本,共同完善benchmark覆盖面。
AI自动绘画大师
AI自动绘画大师

类型:益智休闲

大小:5.72MB

语言:简体中文

平台:互联网

游戏下载

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc