做 IDE 出身的 JetBrains 终于按捺不住,亲自下场做了个大模型。名为 Mellum2,12B 参数规模,混合专家架构,定位非常明确——不是聊天,不是 Agent,是补全代码那一下的速度与准度。Mellum 是第一代,Mellum2 是续作,摆明了要和 Cursor、Cody、Tabby 这些代码助手正面掰手腕。但对开发者来说,更值得追问的是:JetBrains 手里最大的牌其实是 IDE,凭着 IDE 的入口优势,他们能把一个自研模型做成什么样?
从 Mellum 到 Mellum2,JetBrains 到底在补什么
一代 Mellum 试水,二代才算真正登场
2024 年 JetBrains 就推出过 Mellum,算是这家公司在代码大模型领域的"占位符"。但那代模型体量有限,能力边界也窄,基本是 JetBrains 在测试自己从头训练一个模型到底行不行。Mellum2 显然是认真了——12B 总参数、激活参数远低于这个数字,标准的稀疏激活路线。这种架构的好处很直接:训练和推理的算力成本按激活量算,但模型容量按总量走,理论上能用更少的算力跑出更大的模型。代价也很直接,部署门槛不低,推理框架得支持 MoE 路由,这对想本地跑的人来说是个门槛。
为什么 JetBrains 一定要自研
市面上能用的代码模型已经不少,Code Llama、Qwen2.5-Coder、DeepSeek-Coder,哪个不香?JetBrains 还要从头做一遍,图什么?答案藏在它的商业模式里。这家公司的核心收入是 IDE 订阅,不管是 IntelliJ IDEA、PyCharm 还是 GoLand,全世界有几百万付费开发者每天泡在它的编辑器里。Mellum2 一旦深度集成进 IDE,就成了 JetBrains 产品的护城河——别人可以抄功能,但抄不走 JetBrains 自己的模型在自家 IDE 里的那种"我懂你"的感觉。补全速度、上下文窗口、跨文件理解,这些东西在第三方模型上总差那么一口气,自研模型能把这一口气补上。
12B MoE 的算盘打得精不精
参数选择背后的产品逻辑
12B 这个规模在 2025 年的代码模型里算中等偏小。Qwen2.5-Coder 系列做到了 32B,DeepSeek-Coder 也有 16B 以上的版本。Mellum2 选了一个不上不下的体量,肯定不是没原因的。JetBrains 的目标场景非常聚焦——IDE 内的单行或短代码补全,不需要长篇生成,不需要复杂推理,需要的是低延迟。这就解释了为什么用 MoE 而不是稠密模型。激活参数控制在几 B 级别,单次推理的延迟能压到 100 毫秒以内,对补全这种交互场景至关重要。一个 70B 的稠密模型就算再准,补全的时候让你等半秒钟,那体验就废了。
和主流代码模型的差异点
市面上大部分代码模型都在卷"能不能写完整个函数",Mellum2 走的是另一条路。它专为 FIM(Fill-in-the-Middle)补全任务优化,训练数据里大量是真实代码的中间片段。补全这个事看着简单,做起来水很深——光标位置在哪、上下文怎么切、用户敲到一半想干嘛,模型得猜。这种"猜"的质量决定了 IDE 补全到底是个玩具还是真能省时间。JetBrains 手里的真实数据在这里是关键资产,几百万开发者每天产生的补全接受/拒绝记录,是训练专用补全模型的金矿。
开源是姿态,绑定 IDE 才是目的
Hugging Face 开源的真实意图
把 Mellum2 放在 Hugging Face 开源,JetBrains 打的不是大众市场的牌。12B MoE 部署成本不低,普通人不太会拿它来聊天写邮件。JetBrains 要的是社区反馈和生态站位——开源能让独立开发者和研究者帮忙测出各种边缘场景的问题,也能让 JetBrains 在代码模型领域混个脸熟。真正的算盘是:当 Mellum2 在 Hugging Face 上有了下载量、有了社区评价、有了第三方对比,它就具备了"值得集成进 IDE"的产品说服力。这是典型的"先用开源攒势能,再靠产品闭环变现"的路子。
本地推理玩家的实际价值
对想在本地跑代码补全的开发者来说,Mellum2 是个值得关注的选项。前提是你有一张拿得出手的 GPU——12B MoE 模型全参数加载大概需要 24GB 显存,如果用量化版本能压到 12GB 左右。相比 Code Llama 7B 这种稠密小模型,Mellum2 在补全质量上应该有优势,但部署复杂度也上去了。MoE 推理对 vLLM、TGI 这些框架的支持还在完善中,自己部署可能踩坑。不过一旦跑起来,在没有网络的环境下也能用本地补全,这对数据敏感的企业开发场景是个卖点。
Mellum2 改变不了大模型格局,但可能改写 IDE 规则
把 Mellum2 放在整个大模型版图里看,它的体量和能力都不足以撼动 GPT-4、Claude 3.5 Sonnet 这类通用大模型的位置。它太小众了——只做补全,不做对话和 Agent。这种"偏科"在通用基准测试上会吃亏,但在垂直场景里反而是优势。Mellum2 真正的战场不是 Hugging Face 排行榜,而是 JetBrains 自己的 IDE 生态。当一个模型深度嵌入到你每天打开八小时的工具里,它的价值就不再是参数和 benchmark 能衡量的了。JetBrains 这一步棋的真正看点是:传统工具厂商在 AI 时代找到了自己的玩法——不跟 OpenAI 抢通用大模型的王座,而是把模型变成自己产品的"内功"。这招对所有做垂直工具的公司都有借鉴意义。

