OpenAI 推出 Privacy Filter：全新 PII 脱敏模型开源上线

来源:互联网 更新时间:2026-06-23 15:09

最近，OpenAI 发布了一款名为 Privacy Filter 的新模型，专门用来帮开发者给文本“打码”——准确地说，是脱敏其中的个人身份信息（PII）。这个模型可不小，参数规模达到了1.5亿，采用了时下热门的混合专家（MoE）架构。更重要的是，它以 Apache 2.0 协议在 Hugging Face 和 GitHub 上开源了，这意味着开发者可以自由下载、定制，甚至用于商业项目。

那么，Privacy Filter 到底强在哪里？关键在于它对语言的深度理解能力。传统的隐私过滤工具，大多依赖预设的关键词或规则，识别方式比较“死板”。而 Privacy Filter 则能像人一样，结合上下文，从非结构化的文本里精准地揪出敏感信息。它厉害的地方在于，能聪明地区分哪些是公开信息可以保留，哪些又是与特定个体绑定的隐私数据需要遮盖。这种能力，对于需要在数据训练、索引构建、日志记录和审核等环节嵌入隐私保护的开发者来说，无疑是个强大的工具。

技术层面，它支持高达12.8万个Token的上下文窗口，处理长文本也不在话下。为了确保脱敏后文本的连贯性，模型采用了受限维特比算法进行解码。性能如何？在PII-Masking-300k这个基准测试中，它的F1分数达到了96%。这已经相当不错了，但OpenAI的团队更进一步，根据评估中发现的一些标注问题进行了修正，让模型的F1分数进一步提升到了97.43%。这个数字，足以证明它在识别个人敏感信息方面的高效与精准。

当然，需要明确的是，Privacy Filter 被定位为一个隐私过滤工具，而非完全的匿名化解决方案，它不能替代法律要求的合规认证。尤其是在法律、医疗、金融这些对隐私极度敏感的领域，人工审核以及结合具体场景的评估和微调，仍然是不可或缺的安全防线。此外，模型的设计考虑到了隐私本身——它可以在本地设备上运行。这意味着，用户在使用集成此模型的AI工具时，敏感数据不必上传至云端，从而从源头上减少了信息泄露的风险。

OpenAI 推出 Privacy Filter：全新 PII 脱敏模型开源上线

热门资讯

热门手游

相关攻略

热门专题