Anthropic发布Fable 5模型的安全防护措施及AI“越狱”行为评估框架

来源:互联网 更新时间:2026-07-03 18:12

就在7月3日，Anthropic扔出了一份关于AI安全的重磅文件——一套评估人工智能“越狱”行为严重程度的框架，同时披露了已经在全球上线的最新模型Claude Fable 5所采用的网络安全防护措施。这份文件的核心，是把网络安全相关的使用场景划成了四个等级，从“绝对禁止”到“完全无害”。被直接拉黑的用途包括勒索软件开发、恶意软件编写，以及针对网络—物理基础设施的破坏活动。而对于渗透测试这类“双刃剑”属性的高风险操作，在更完善的控制机制落地之前，也会被果断拦截。

怎么量化这些越狱行为的危害？Anthropic提出的评级体系叫“Cyber Jailbreak Severity”（网络越狱严重程度），缩写CJS，从0级到4级共分五档。评估维度则锁定在四个方面。更重要的是，他们还同步上线了HackerOne项目，直接向全球安全研究人员开放——你们来提交潜在的模型越狱案例，我们来评估、来堵漏。这招“开门请黑客”的思路，倒是颇有几分互联网安全社区的经典味道。

从行业视角来看，这份框架的价值不止在于技术细节。它实际上是在给“AI安全治理”这个混沌地带划定可操作的坐标。过去大家讨论大模型风险，常常停留在“很危险”或“没关系”的二元争论里，缺少中间状态。现在有了CJS-0到CJS-4的五级标尺，至少业界可以开始用同一把尺子量问题——这不仅便于企业内部风控，也为监管沟通提供了技术语言基础。当然，框架只是起点，真正考验的还在落地执行上。

Anthropic发布Fable 5模型的安全防护措施及AI“越狱”行为评估框架

热门资讯

热门手游

相关攻略

热门专题