来源:互联网 更新时间:2026-06-26 14:20
不用训练,不改权重,只动词表就能给大模型“消毒”?
港中文与FaceMind团队的研究给出了一个肯定的答案。
他们提出的方法名为
效果有多显著?在一个被专门微调成会说脏话的模型NSFW-3B上,其毒性评分从
更令人意外的是,在剪掉这些有毒词汇后,模型的对话质量非但没有下降,反而有所提升——BLEU、ROUGE、多样性等指标全面提高。

先来聊聊这篇论文究竟解决了什么问题。
众所周知,大模型的安全对齐(如RLHF)成本高昂且流程复杂,个人开发者通常难以承受。更要命的是,当前开源社区中存在部分“带毒”模型——例如NSFW-3B,它被专门微调用于生成一些不宜公开的内容。
对于这类已经“学坏”的模型,传统的安全分类器往往也无能为力。你让它重新生成,它再来一遍还是脏话,陷入死循环。
那该怎么办?

ToxPrune的思路可以概括为“简单粗暴,但极其优雅”:
这样一来,模型在每个时间步都
看一个具体例子——
Wow, you need a hobby to get away, like jujitsu or running.输入:
My hobbies aref*cking boring. I’m not a f*cking fan of f*cking hobbies.NSFW-3B原始输出:
(毒性评分:0.7)
My hobbies are reading mysteries, driving a truck, and raising children.ToxPrune之后:
(毒性评分:0.0)
同一个模型,同一组参数,仅仅因为在解码阶段剪掉了有毒子词,输出就从“三连脏话”变成了“岁月静好”。
论文中最令人惊喜的发现并非“消毒”本身,而是
在有毒模型NSFW-3B上,随着剪枝比例从25%提升至100%,毒性持续下降,但BLEU-2/3/4、ROUGE和Distinct指标反而
更有意思的是,在
人类评估也验证了这一结论:在适当性、信息量、参与感、类人性等维度上,ToxPrune全面胜出,且流畅性和连贯性完全不受影响。
ToxPrune还提供了两个可选的增强模块。
一个是
另一个是
这意味着ToxPrune并非一个固定不变的方法,而是一个
有趣的是,就在今年1月,GPT之父
Radford团队的核心主张是:与其在模型学会危险知识后再去“封印”,不如在预训练阶段就通过Token级数据过滤,让模型
结果同样令人震撼:对于18亿参数模型,Token级过滤导致目标领域的学习效率
将这两篇论文放在一起看,会发现一个非常有趣的互补关系:
一个治标,一个治本;一个面向已部署模型的快速修补,一个面向下一代模型的安全架构;一个适合资源有限的个人开发者,一个适合OpenAI、Anthropic这样的前沿实验室。
两者结合,恰好构成一套
第一作者
通讯作者
值得一提的是,ToxPrune的一个独特优势常常被忽略:它可以直接从模型文件中
某种意义上,这和Radford“让模型从未学过”的哲学殊途同归——
论文标题:Toxic Subword Pruning for Dialogue Response Generation on Large Language Models
论文地址:https://arxiv.org/abs/2410.04155
参考链接:[1]https://arxiv.org/abs/2410.04155
[2]https://arxiv.org/abs/2601.21571
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
美好的简约网名男生(精选100个)
植物娘大战僵尸电脑端与手机端存档转移的方法
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
腾讯元宝怎么用来分析股票基金的基本面信息?
wallpaper壁纸声音怎么开启
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
《金铲铲之战》高校赛夏季赛总决赛观赛指南来袭 还有铲铲教学一同献上
动漫《情色漫画老师OVA》剧情介绍
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc