您的位置：首页 > > 教程攻略 > ai资讯 >谁是 Agent 最强守门员？首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

谁是 Agent 最强守门员？首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

来源:互联网 更新时间:2026-06-13 14:05

直接说几个判断：Agent技能生态的安全问题，已经从"有没有工具"进入到"如何证明有效"的阶段。SkillTrustBench这个基准的发布，正是为了给行业一个可落地、可复现、可持续更新的客观标尺。

导语

Agent技能快速融入应用生态，正在成为全新的安全边界和供应链攻击入口。防止恶意Skill造成数据泄露或Agent劫持，已经成为行业的共识。然而，在实际落地中，用户常常陷入两难：一些扫描方案追求高召回，却频发误报，导致告警疲劳；另一些方案虽然判定精准，但在面对隐蔽的对抗手法时容易漏报。更麻烦的是，基于LLM的扫描器切换底层模型时，研判偏好差异显著。行业需要一个客观的衡量标准，既能度量安全方案的检测效能，也能评估Skill本身的安全可信度。

针对这些痛点，

腾讯朱雀实验室

联合

香港中文大学（深圳）吴保元教授课题组

发布了

SkillTrustBench

——这是首个面向真实落地场景、兼顾Agent Skills安全可信度与外部扫描方案检测效能的双重评测基准。该基准从主流技能市场的62,652个Skill中提炼出5,520个评测用例，涵盖九大类常见安全威胁。

从首期评测数据来看，有几个关键点值得关注：

大模型底座表现：
本次评测中，
Claude Opus 4.6与GLM 5.1
在安全扫描场景下展现出极强的语义推理与安全约束理解能力，处于第一梯队；
DeepSeek V4 Flash与Hy3 preview
则在性能与成本之间取得了优异平衡，性价比优势明显。
开源工具效能：
以OpenClaw + Skill Vetter为代表的轻量级开源审计方案，已具备发现多数恶意Skill风险的基础能力，但在复杂噪声干扰下的误报控制上仍有较大优化空间。
Skill本身的安全可信度：
评测发现，大量非恶意Skill同样存在不可信隐患。硬编码凭证、敏感权限滥用、易受命令注入等不安全编码缺陷广泛存在。这些行为虽然主观无害，但因其自身的安全脆弱性，极易成为供应链劫持的二次攻击入口。

01 Agent Skills的攻击面正在扩大

Agent Skills的危险性来自它的复合性。Skill同时跨越自然语言、代码、依赖、权限和运行时上下文。它既可以在文档中直接向Agent下达指令、利用网络请求向外传输数据，也可以通过执行本地脚本、安装外部依赖或篡改会话记忆来实施隐蔽攻击。

2026年1月底的ClawHa voc事件中，1,184个恶意Skill被上架到ClawHub市场，涉及24.7万次安装。随后Snyk发布的ToxicSkills报告显示，市场中36.82%的Skill至少存在一个安全问题。论文SkillProbe审计发现，高下载量并不等于更安全——ClawHub中超过90%的高热度Skill仍然存在风险。

2026年4月，腾讯朱雀实验室用A.I.G（AI-Infra-Guard，腾讯朱雀实验室开源的一站式AI红队安全测试平台）对ClawHub上Skill进行了全量扫描。研究显示，ClawHub在90天内从不足2,000个Skill增长到超过50,000个；即便平台后续上线了安全检测机制，Skill生态中的风险信号仍然密集。

第一，恶意Skill已呈现出规模化、矩阵化的生产迹象。

五万个Skill背后共有15,427名开发者，但Top 20发布者合计发布5,422个Skill，占总量12.9%。极端账号3个月发布955个Skill，日均10.6个。多组命名相近、发布时间交替的账号矩阵说明，Skill生态已经具备批量制造、批量投放、批量伪装的条件。

第二，权限组合天然接近数据外泄链路。

在近五万个Skill中，27,818个声明了网络请求权限，占比74.6%。联网本身不是问题，但当"读文件+联网"成为大量Skill的常见组合时，恶意外传就可以隐藏在正常功能流量中。

第三，外联通道已经非常分散。

全量扫描共发现246,378条URL，指向29,196个不同域名。这些URL既可能是正常API、文档、依赖源，也可能成为远程控制、数据回传、链上交互或二阶段载荷下载的通道。

02 现有扫描与评测为什么不够

ClawHa voc事件后，Skill市场和安全厂商已经开始建设扫描机制。以ClawHub为例，平台新增了内置的LLM安全评估和VirusTotal的外联检测。这类机制能有效拦截大部分恶意指令直接写在SKILL.md文档里、直接下载运行木马程序的粗暴攻击。

但攻击者很快进入下一阶段：不再把恶意逻辑写得明显，而是利用输入截断、文件类型盲区、源码与分发产物不一致、企业合规话术和社会工程解释来绕过扫描。

2026年6月，Trail of Bits针对ClawHub、Cisco skill scanner以及skills.sh集成的多个扫描器进行了绕过测试。他们构造的样本包括：

这些不是极端高级攻击，而是利用了当前扫描方案的能力边界：文件是否完整读取，特殊文件是否展开分析，字节码是否反编译，LLM是否会被合理解释说服。

另一个问题是当前行业中众多开源Skill安全扫描方案之间缺少共识。

2026年5月底，OpenClaw官方发布的ClawHub Security Signals数据集覆盖了ClawHub中67,453个公开Skill，并进一步对比分析了ClawHub官方市场原有内置静态分析结果、VirusTotal分析结果和NVIDIA SkillSpector扫描结果三类信号。结果显示，任意两类扫描的阳性样本重合度最多只有10.4%；只有0.69%的恶意Skill被三类扫描方案同时发现；81.9%的被标记样本只被单一扫描方案发现。

这意味着，不同扫描方案看到的是不同风险切面，甚至对同一批样本的判断也缺少稳定共识。因此，仅有众多的开源扫描器还不够，行业还需要一个公开、可复现、可持续更新的评测基准，回答几个更基础的问题：

哪个方案更能发现恶意Skill？
哪个方案更容易误报正常Skill？
同一个方案换不同底层模型会怎样？
哪些攻击类型最容易漏掉？
哪些正常行为最容易被误伤？

SkillTrustBench正是围绕这些问题设计的。

03 SkillTrustBench：从真实Skill生态构建评测标尺

SkillTrustBench当前版本从62,652个真实Skill出发，来源覆盖主流技能市场与开源社区。经过清洗、去噪、平衡采样和攻击注入，最终形成5,520个评测用例，覆盖九大类Skill常见威胁。

样本分布如下：

这里最关键的设计思路是：样本数量并不是全部，样本结构才是核心。

如果一个评测集只包含显而易见的恶意样本，扫描方案很容易被引导成看到危险命令就告警的规则系统。这样的工具在测试里可能很好看，但进入真实平台后会制造大量误报：系统管理Skill需要调用shell，文档处理Skill可能使用临时共享库，官方安装脚本可能出现curl | bash，开发工具Skill可能需要拉取依赖或访问外部API。

毕竟在实际场景中，调用敏感API不等于恶意，而看似合规的解释也可能是伪装。因此，SkillTrustBench同时评估三类能力：

是否能抓住恶意Skill；
是否能区分suspicious与malicious；
是否能控制对安全样本的误报。

在风险分类上，SkillTrustBench采用按攻击手段划分的T01-T09体系，而不是只按攻击后果分类：

此外，评估Skill本身的安全可信度，绝非简单的"非黑即白"恶意检测。我们在风险类别中特意引入了"T09不安全编码行为"。

真实的Agent生态中，大量由正常工程人员开发的Skill主观上并无恶意，但由于缺乏安全编码规范，其代码中往往伴随着硬编码凭证、敏感权限过度声明、缺乏输入校验等不可信缺陷。这些缺陷如同软件供应链中的潜伏漏洞：即使开发者主观无害，其不安全的代码仍可能被黑客通过提示词注入或间接指令劫持，成为入侵系统的隐性通道。

04 首期评测发现：高召回不等于可落地

SkillTrustBench首期评测包含两组核心榜单：一组比较不同扫描工具，另一组比较同一扫描流程在不同底层模型上的表现。

首期横评对比了当前开源生态中关注度较高的几款开源Skill扫描方案：

Skill Vetter (OpenClaw / Hermes Agent)
：当前下载量最高的安全审计Skill，可以快速部署在各类Agent框架中，在Skill安装前检查风险并在对话中提示用户。
Cisco Skill Scanner
：Cisco AI Defense开源的检测工具，结合了静态规则、LLM语义分析与行为数据流分析，重点扫描提示注入、数据泄露及恶意代码。
NVIDIA SkillSpector
：采用两阶段检测架构。第一阶段利用AST行为分析、依赖项校验、污点追踪及YARA规则进行快速初筛；第二阶段引入LLM进行上下文语义分析，用以过滤误报并输出解释。

在扫描器横评中，统一使用DeepSeek v4 Flash作为底座模型。最新公开结果如下：

从最新榜单来看，

Skill Vetter + OpenClaw

的组合在召回率与综合分值（F1）上表现最突出；

Skill Vetter + Hermes Agent

组合综合排名第二，但误报最少。

Cisco Skill Scanner

的召回率不错，但误报率达到24%。NVIDIA SkillSpector的误报较少，但漏报最多。

这组数据说明了一个关键问题：安全检测不能只看召回率或误报率。在真实Skill市场上架前审计、企业内部CI/CD流程和Agent平台里，高误报会直接损害Skill的可用性。如果一个扫描方案把大量正常Skill标成恶意，最终结果往往不是更安全，而是用户选择忽略提示。能抓住恶意样本是第一步，能放过正常样本，才是进入生产流程的前提。

在模型底座评测中，SkillTrustBench固定扫描器配置，仅替换底层推理模型，观察不同模型在作为Skill安全扫描工具时的表现：

能力最强之选：Claude Opus 4.6与GLM-5.1。
两者在风险推断、指令关联分析和意图识别方面表现出较好的均衡性，综合分值最高。不过相比之下，GLM 5.1的评测Token成本相对更低（不到Claude 4.6 Opus的10%）。
性价比之选：DeepSeek-V4-Flash与Hy3 Preview。
整体表现相对均衡，误报控制较好，适合作为低成本的安全评测参照基线，适用于Skill市场上架前扫描这类高任务量的场景。
偏向性特征表现：
- Gemini 3.5 Flash
  在本组评测中展现出较高的精确率与极低的误报率，但在复杂样本的召回能力上相对保守，会有部分漏报。
- GPT-5.5
  表现出较高的召回率，但误报率高达18.67%，在安全性研判上更偏向于"宁可误报、也不漏过"的风格。

对于模型厂商来说，SkillTrustBench不仅测试了模型的语义理解，还考验其对代码逻辑、多步指令的链式推理和敏感边界的划定能力。过去，这类垂类安全任务场景的能力比较一直缺少足够全面权威的标尺，SkillTrustBench旨在为大模型在此类安全任务推理中提供一个客观的评估基准。

05 共建安全可信的Agent Skills生态

当前，Agent Skill安全扫描的核心问题已经从"有没有工具"迈向"如何证明有效"的新阶段。由于Skill兼具代码与自然语言的双重属性，且攻防对抗动态演进，行业长期缺乏统一标尺，导致各方的评估结果各说各话，企业难以选择合适的扫描方案。

SkillTrustBench的发布，有望为行业提供AI技能安全检测的客观评估基准，推动检测能力从定性走向定量。作为一项持续演进的项目，我们将紧跟最新的攻防实践，不断充实评测集，也希望各方能够加入共建：

大模型厂商：提交新模型评测结果，评估模型在Agent Skill安全审查场景中的能力水平；
Agent平台与Skill市场：评估并优化内置的安装前安全审计方案；
安全扫描工具：提交新版本扫描方案，横向比较检测能力演进；
安全研究者：提交真实攻击样本、绕过案例和良性高风险样本，共同完善benchmark覆盖面。

AI自动绘画大师

类型：益智休闲

大小：5.72MB

语言：简体中文

平台：互联网

游戏下载

谁是 Agent 最强守门员？首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

导语

腾讯朱雀实验室

香港中文大学（深圳）吴保元教授课题组

SkillTrustBench

大模型底座表现：

Claude Opus 4.6与GLM 5.1

DeepSeek V4 Flash与Hy3 preview

开源工具效能：

Skill本身的安全可信度：

01 Agent Skills的攻击面正在扩大

第一，恶意Skill已呈现出规模化、矩阵化的生产迹象。

第二，权限组合天然接近数据外泄链路。

第三，外联通道已经非常分散。

02 现有扫描与评测为什么不够

但攻击者很快进入下一阶段：不再把恶意逻辑写得明显，而是利用输入截断、文件类型盲区、源码与分发产物不一致、企业合规话术和社会工程解释来绕过扫描。

另一个问题是当前行业中众多开源Skill安全扫描方案之间缺少共识。

哪个方案更能发现恶意Skill？

哪个方案更容易误报正常Skill？

同一个方案换不同底层模型会怎样？

哪些攻击类型最容易漏掉？

哪些正常行为最容易被误伤？

03 SkillTrustBench：从真实Skill生态构建评测标尺

是否能抓住恶意Skill；

是否能区分suspicious与malicious；

是否能控制对安全样本的误报。

04 首期评测发现：高召回不等于可落地

Skill Vetter (OpenClaw / Hermes Agent)

Cisco Skill Scanner

NVIDIA SkillSpector

Skill Vetter + OpenClaw

Skill Vetter + Hermes Agent

Cisco Skill Scanner

能力最强之选：Claude Opus 4.6与GLM-5.1。

性价比之选：DeepSeek-V4-Flash与Hy3 Preview。

偏向性特征表现：

Gemini 3.5 Flash

GPT-5.5

05 共建安全可信的Agent Skills生态

热门资讯

热门手游

相关攻略

热门专题