来源:互联网 更新时间:2026-06-13 14:05
直接说几个判断:Agent技能生态的安全问题,已经从"有没有工具"进入到"如何证明有效"的阶段。SkillTrustBench这个基准的发布,正是为了给行业一个可落地、可复现、可持续更新的客观标尺。
Agent技能快速融入应用生态,正在成为全新的安全边界和供应链攻击入口。防止恶意Skill造成数据泄露或Agent劫持,已经成为行业的共识。然而,在实际落地中,用户常常陷入两难:一些扫描方案追求高召回,却频发误报,导致告警疲劳;另一些方案虽然判定精准,但在面对隐蔽的对抗手法时容易漏报。更麻烦的是,基于LLM的扫描器切换底层模型时,研判偏好差异显著。行业需要一个客观的衡量标准,既能度量安全方案的检测效能,也能评估Skill本身的安全可信度。
针对这些痛点,
从首期评测数据来看,有几个关键点值得关注:
Agent Skills的危险性来自它的复合性。Skill同时跨越自然语言、代码、依赖、权限和运行时上下文。它既可以在文档中直接向Agent下达指令、利用网络请求向外传输数据,也可以通过执行本地脚本、安装外部依赖或篡改会话记忆来实施隐蔽攻击。
2026年1月底的ClawHa voc事件中,1,184个恶意Skill被上架到ClawHub市场,涉及24.7万次安装。随后Snyk发布的ToxicSkills报告显示,市场中36.82%的Skill至少存在一个安全问题。论文SkillProbe审计发现,高下载量并不等于更安全——ClawHub中超过90%的高热度Skill仍然存在风险。
2026年4月,腾讯朱雀实验室用A.I.G(AI-Infra-Guard,腾讯朱雀实验室开源的一站式AI红队安全测试平台)对ClawHub上Skill进行了全量扫描。研究显示,ClawHub在90天内从不足2,000个Skill增长到超过50,000个;即便平台后续上线了安全检测机制,Skill生态中的风险信号仍然密集。
ClawHa voc事件后,Skill市场和安全厂商已经开始建设扫描机制。以ClawHub为例,平台新增了内置的LLM安全评估和VirusTotal的外联检测。这类机制能有效拦截大部分恶意指令直接写在SKILL.md文档里、直接下载运行木马程序的粗暴攻击。
2026年6月,Trail of Bits针对ClawHub、Cisco skill scanner以及skills.sh集成的多个扫描器进行了绕过测试。他们构造的样本包括:
这些不是极端高级攻击,而是利用了当前扫描方案的能力边界:文件是否完整读取,特殊文件是否展开分析,字节码是否反编译,LLM是否会被合理解释说服。
2026年5月底,OpenClaw官方发布的ClawHub Security Signals数据集覆盖了ClawHub中67,453个公开Skill,并进一步对比分析了ClawHub官方市场原有内置静态分析结果、VirusTotal分析结果和NVIDIA SkillSpector扫描结果三类信号。结果显示,任意两类扫描的阳性样本重合度最多只有10.4%;只有0.69%的恶意Skill被三类扫描方案同时发现;81.9%的被标记样本只被单一扫描方案发现。
这意味着,不同扫描方案看到的是不同风险切面,甚至对同一批样本的判断也缺少稳定共识。因此,仅有众多的开源扫描器还不够,行业还需要一个公开、可复现、可持续更新的评测基准,回答几个更基础的问题:
SkillTrustBench正是围绕这些问题设计的。
SkillTrustBench当前版本从62,652个真实Skill出发,来源覆盖主流技能市场与开源社区。经过清洗、去噪、平衡采样和攻击注入,最终形成5,520个评测用例,覆盖九大类Skill常见威胁。
样本分布如下:
这里最关键的设计思路是:样本数量并不是全部,样本结构才是核心。
如果一个评测集只包含显而易见的恶意样本,扫描方案很容易被引导成看到危险命令就告警的规则系统。这样的工具在测试里可能很好看,但进入真实平台后会制造大量误报:系统管理Skill需要调用shell,文档处理Skill可能使用临时共享库,官方安装脚本可能出现curl | bash,开发工具Skill可能需要拉取依赖或访问外部API。
毕竟在实际场景中,调用敏感API不等于恶意,而看似合规的解释也可能是伪装。因此,SkillTrustBench同时评估三类能力:
在风险分类上,SkillTrustBench采用按攻击手段划分的T01-T09体系,而不是只按攻击后果分类:
此外,评估Skill本身的安全可信度,绝非简单的"非黑即白"恶意检测。我们在风险类别中特意引入了"T09不安全编码行为"。
真实的Agent生态中,大量由正常工程人员开发的Skill主观上并无恶意,但由于缺乏安全编码规范,其代码中往往伴随着硬编码凭证、敏感权限过度声明、缺乏输入校验等不可信缺陷。这些缺陷如同软件供应链中的潜伏漏洞:即使开发者主观无害,其不安全的代码仍可能被黑客通过提示词注入或间接指令劫持,成为入侵系统的隐性通道。
SkillTrustBench首期评测包含两组核心榜单:一组比较不同扫描工具,另一组比较同一扫描流程在不同底层模型上的表现。
首期横评对比了当前开源生态中关注度较高的几款开源Skill扫描方案:
在扫描器横评中,统一使用DeepSeek v4 Flash作为底座模型。最新公开结果如下:
从最新榜单来看,
这组数据说明了一个关键问题:安全检测不能只看召回率或误报率。在真实Skill市场上架前审计、企业内部CI/CD流程和Agent平台里,高误报会直接损害Skill的可用性。如果一个扫描方案把大量正常Skill标成恶意,最终结果往往不是更安全,而是用户选择忽略提示。能抓住恶意样本是第一步,能放过正常样本,才是进入生产流程的前提。
在模型底座评测中,SkillTrustBench固定扫描器配置,仅替换底层推理模型,观察不同模型在作为Skill安全扫描工具时的表现:
对于模型厂商来说,SkillTrustBench不仅测试了模型的语义理解,还考验其对代码逻辑、多步指令的链式推理和敏感边界的划定能力。过去,这类垂类安全任务场景的能力比较一直缺少足够全面权威的标尺,SkillTrustBench旨在为大模型在此类安全任务推理中提供一个客观的评估基准。
当前,Agent Skill安全扫描的核心问题已经从"有没有工具"迈向"如何证明有效"的新阶段。由于Skill兼具代码与自然语言的双重属性,且攻防对抗动态演进,行业长期缺乏统一标尺,导致各方的评估结果各说各话,企业难以选择合适的扫描方案。
SkillTrustBench的发布,有望为行业提供AI技能安全检测的客观评估基准,推动检测能力从定性走向定量。作为一项持续演进的项目,我们将紧跟最新的攻防实践,不断充实评测集,也希望各方能够加入共建:
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
免费影视剧APP推荐
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
抖音最火沙雕男生网名(精选100个)
网络热词聊污是什么意思
帅气继父网名女生可爱英文(精选100个)
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
我的末日校园海斗手游上线时间是哪天
蒙古上单是什么梗
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
免费看电影的软件推荐
韦一敏是什么梗
晨字沙雕网名大全女生(精选100个)
帅到极致的网名女生霸气(精选100个)
短剧《情绪超市》剧情介绍
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc