热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >Mellum2 - JetBrains 开源的混合专家模型

Mellum2 - JetBrains 开源的混合专家模型

来源:互联网 更新时间:2026-06-04 15:41

Mellum2是什么

JetBrains最近开源了一个叫Mellum2的模型,目标很明确——专为软件工程系统打造。它的总参数量12B,但每个token只激活2.5B参数,这在推理成本和性能之间找到了一个相当巧妙的平衡点。简单说,就是用更少的计算资源做更多的事,尤其适用于代码生成、智能路由、子Agent调用以及企业级私有化部署场景。在LiveCodeBench这类代码评测中,它的表现相当抢眼,算得上是构建AI编程助手和工作流的实用选择。

Mellum2的主要功能

  • 智能代码生成

    :基于代码和自然语言数据训练,支持代码补全、函数生成与重构建议——IDE里那些烦人的重复劳动,它可以接过去不少。
  • 双模式推理

    :提供Thinking(深度思考)与Non-thinking(快速响应)两种模式,按需切换。遇到复杂逻辑就开启深度模式,日常补全则走快速通道。
  • 工作流路由与摘要

    :充当AI工作流的智能路由器,负责任务分发、文档摘要与中间推理。说白了,就是让不同AI工具能协作起来。
  • 工具调用与Agent协作

    :支持子Agent调用和工具链集成,可以嵌入到自动化流程中,比如自动构建、测试部署。
  • 本地私有部署

    :可在企业内网或本地设备独立运行,不依赖外部API,数据安全合规有保障。

Mellum2的技术原理

  • MoE稀疏架构

    :采用64专家、每token激活8个专家的混合专家设计。总参数量12B,但实际激活仅2.5B,推理成本接近2.5B的密集模型。再加上Grouped-Query Attention和滑动窗口注意力,显存占用被大幅压缩,解码速度也提上去了。还有一个有意思的设计——多Token预测头,它作为辅助预训练目标,同时充当投机解码的内置Draft模型,进一步降低延迟。
  • 三阶段课程预训练

    :模型在约10.6万亿Token上训练,数据配比从通用网页数据逐步过渡到精选代码与数学内容,形成渐进式课程。优化方面用了Muon优化器配合FP8混合精度,学习率采用Warmup-Hold-Decay(线性衰减至零)策略,兼顾效率和稳定性。
  • 长上下文扩展

    :基础模型通过Layer-Selective YaRN将上下文窗口扩展至128K,只对关键层进行位置编码插值,避免了全层微调带来的性能损失。

Mellum2的核心优势

  • MoE高效架构

    :12B总参数仅激活2.5B,推理成本低,吞吐高,延迟低。
  • 垂直领域专精

    :放弃多模态,专注代码与自然语言,在软件工程场景下更精准、更轻量。
  • 生产级性能

    :在LiveCodeBench v6代码评测中,Thinking模式得分69.9,领先同级别开源模型。
  • 完全开源可商用

    :Apache 2.0协议,自由实验、微调及大规模商用部署。
  • 企业隐私友好

    :支持完全本地化运行,满足代码安全与数据合规要求。

Mellum2的同类竞品对比

对比维度

Mellum2

Qwen3.5-9B

SeedCoder-8B

模型架构 12B MoE(64专家,8激活,2.5B活跃参数) 9B密集模型(Dense) 8B密集模型(Dense)
开源协议

Apache 2.0

(完全可商用)
开源(可商用) 未明确/部分受限
模态支持 仅文本+代码(垂直专精) 文本、代码、图像、视频(多模态通用) 仅代码(单领域)
每Token计算量

≈2.5B参数

(极低)
9B参数(全量激活) 8B参数(全量激活)
LiveCodeBench v6

69.9

(Thinking)
68.3(Thinking) 28.1(Non-thinking)
BFCL V4工具调用 45.6(Thinking) 42.7(Thinking) N/A(不支持)
AIME数学推理 58.4(Thinking)

73.4

(Thinking)
0(不支持)
上下文长度 128K(YaRN扩展) 128K+ 通常4K-8K
推理模式 双模式:Thinking + Non-thinking 双模式:Thinking + Non-thinking 仅Non-thinking

Mellum2的应用场景

  • 智能代码补全与生成

    :在IDE中提供实时代码补全、函数生成、代码重构与编辑建议,替代传统自动补全工具。
  • 调试与错误诊断

    :辅助开发者定位Bug、分析堆栈信息、生成修复方案,降低调试时间成本。
  • 多步推理与复杂任务分解

    :在Agent工作流中承担中间推理节点,将复杂需求拆解为可执行的子任务序列。
  • 工具调用与函数编排

    :通过Function Calling连接外部API、数据库或开发工具,实现自动化构建、测试与部署流程。
  • 对话式编程助手

    :用自然语言交互方式解答技术问题、解释代码逻辑、推荐最佳实践,充当7×24小时的技术顾问。

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc