这不是一次普通的技术选型调整。xAI 今天确认,自己在下一代 Grok 模型的训练中已经全面弃用 JAX 和 XLA 堆栈——而它正是当今 GPU 算力市场上最大的单一客户。压垮骆驼的最后一根稻草是浮点运算利用率(MFU)低到离谱:几万张 H100 组成的集群,跑 JAX 时有效利用率竟常常不到 10%。九成算力在空转。于是 xAI 选择了一个令所有人意外的方向:用 C 语言从头“Vibe 出一个训练框架”。不是 PyTorch,不是 Triton,直接上 C。
这等于给 NVIDIA 的 JAX 团队判了死刑。过去两年,这支队伍几乎是 996 全体主力驻场,全力替 xAI 适配优化,结局却是 MFU 死死卡在个位数。消息源半是调侃半是真情流露地写道:“现在他们可以休息并兑现期权了。” 而 xAI 工程师的内部结论更残酷:JAX 在万卡级稀疏训练场景下暴露的是根本性设计缺陷,不靠堆人、换硬件就能补救。
对正在评估底层框架的大模型团队而言,这记警钟震耳欲聋。万亿参数规模的实验已经证明,任何抽象层的优雅、任何编译器的高级优化,只要不能把 GPU 实打实地喂饱,最终都得让路。xAI 选择了一条看起来年代感十足的路——C 语言、裸写训练循环——但实用主义从不讲美学。它只关心一个问题:同样的 GPU 账单,你能多跑出多少有效算力?

