小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s

发布时间: 2026-06-09 文章分类: AI前沿技术
阅读量: 0
AI智能体
企业级AI智能体开发与部署
LumeValley提供全栈式企业级AI智能体开发与部署服务,涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化,确保智能体高效稳定运行,助力企业实现智能化转型,提升运营效率与竞争力。

1000 tokens/s。万亿参数的旗舰大模型,在通用GPU上跑出了这个速度。不是未来,是现在。小米MiMo和TileRT联手扔出的这颗“炸弹”,炸开的不是技术参数表,而是实时AI应用的天花板。当推理速度不再是瓶颈,很多我们想象过的场景——毫秒级响应的复杂代码生成、实时交互的多模态助手、高速流动的数据处理管线——突然从“可能”变成了“工程问题”。

突破的不是速度,是成本与体验的平衡点

过去,想要顶级模型的速度,要么求助于天价定制硬件,要么对模型进行“伤筋动骨”的压缩。MiMo-V2.5-Pro-UltraSpeed模式走了一条更聪明的路:它没有削弱模型的“大脑”(1T参数的MoE架构),而是优化了“血液循环系统”和“神经反应速度”。

通用硬件上的“超跑模式”

想象一下,一台家用轿车,通过一套精密的改装套件和驾驶技巧,跑出了专业赛道的圈速。这就是UltraSpeed模式的核心思路:不换引擎(GPU硬件),而是优化进气、涡轮和换挡逻辑(软件与算法)。TileRT的常驻内核引擎,把最常用的计算模块像“常驻管家”一样安排好,随叫随到,省去了每次任务启动的调度开销。异构流水线则像让不同工种的师傅(GPU的不同计算单元)并行干活,你算你的矩阵,我传我的数据,大家都不闲着。

“量化”的艺术:该省省,该花花

精度是性能的奢侈品。直接对整个万亿模型进行低精度量化,就像让所有员工都降薪,必然导致核心人才(关键计算层)流失。MiMo的FP4混合量化是精准的“薪酬改革”:只对数量庞大但单个计算负载相对轻的MoE专家层动刀,用4位浮点数大幅压缩其存储和带宽需求。而对于决定模型“思考质量”的核心注意力层、路由层等,则保持高精度。这招“抓大放小”,在几乎不损伤模型智力的前提下,把显存和带宽的包袱甩掉了大半。

解码革命:从“一个字一个字蹦”到“一句话一句话流”

大模型生成文本,传统上是一个token接一个token地串行解码,像一台老式打字机。UltraSpeed模式中的DFlash推测解码,则像配备了一位能提前猜测后续内容的“速记员”,实现了并行流水作业。

猜得准,才能跑得快

推测解码的关键在于,用一个小而快的模型(草稿模型)先猜出一长串可能的后续token。然后,大模型一次性并行验证这整串猜测。如果猜对了大部分,就直接采纳,实现“一次验证,多步生成”。DFlash技术更进一步,它采用块级masked并行,在coding这类高结构化场景下,平均接受长度达到了6.30个token。这意味着,大模型每“思考”一次,就能稳定地输出一小段代码或一句话,吞吐率自然暴涨。

像写作,而非像打字

这种模式更符合人类的写作和思考习惯。我们写文章时,并不是写一个字想下一个字,而是在脑中先构思好一个句子或一个段落,然后一气呵成写下来。DFlash推测解码让模型模拟了这个过程,将生成从“思维链”变成了“思维块”,极大地释放了硬件并行计算的潜力。

代码世界:突破1000大关的“主场优势”

为什么在编程场景下,提速效果尤其显著?因为代码是世界上最讲究结构、逻辑和可预测性的语言之一。

结构化文本的天然“剧透”

一个函数开头写了`def calculate_sum(`,接下来大概率是参数列表、冒号和缩进。一个`for`循环开始后,循环体的基本结构是确定的。这种高度的上下文可预测性,为推测解码的“草稿模型”提供了绝佳的“剧本”。它猜中的概率更高,猜测的长度也更长,因此在代码补全、生成等任务上,UltraSpeed模式能获得远超自然语言场景的收益。6.30的平均接受长度,正是代码结构化魔力的体现。

从“补全”到“实时生成”

当生成速度突破临界点,代码工具的角色将从“辅助你写”变为“替你快速写”。开发者可以用自然语言描述一个复杂的功能模块,模型在几分钟内生成一个初版代码框架。实时交互式的调试和重构成为可能——你提出修改意见,模型瞬间给出几个重写版本。这不再是智能补全,而是接近于拥有一个随时在线的、思维飞快的结对编程伙伴。

开源底牌:不只是秀肌肉,更是生态宣言

小米将FP4权重与DFlash模型checkpoint开源,这步棋的意义远大于技术本身。它意味着任何拥有相应硬件资源的团队,都可以复现并站在这个速度基点上进行创新。

降低“速度特权”的门槛

以往,拥有超快推理能力是顶级科技公司的专属特权。开源相关模型和方案,等于把解锁极速的“钥匙”复制并分发给了社区。初创公司、学术团队、独立开发者,都有机会用极低的成本,将自己的应用构建在“实时大模型”的底座之上。这可能会催生一波全新的、以交互实时性为核心的AI应用品类。

工程优化的价值被“看见”

这次发布清晰地传递了一个信号:在算法创新放缓的大模型竞赛下半场,**系统级的工程优化与协同设计(Co-design)将成为新的胜负手**。它证明了,在不依赖专用硬件的前提下,通过模型算法与推理系统的深度耦合,依然能在通用硬件上榨取出惊人的性能。这为整个行业指明了一条更务实、更普惠的进化路径。

AI智能体
企业级AI智能体开发与部署方案
LumeValley打造企业级AI智能体全流程方案,涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验,确保智能体精准理解业务,高效执行任务,无缝融入企业生态,为企业数字化转型提供强劲智能引擎,提升核心竞争力。
点赞 | 74

Lumevalley——全栈AI服务领航者,以“战略-应用-算力”三位一体服务框架,为企业提供从顶层战略规划、场景化AI智能体(AI Agent)开发/搭建/部署,到企业级AI应用开发、AI+行业场景解决方案的全链路服务,并配套AI大模型部署与高性能AI算力底座支撑,助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。

马上扫码获取产品资料
相关文章

相关文章

填写以下信息, 免费获取方案报价
姓名
手机号码
企业名称
  • 建筑建材
  • 化工
  • 钢铁
  • 机械设备
  • 原材料
  • 工业
  • 环保
  • 生鲜
  • 医疗
  • 快消品
  • 农林牧渔
  • 汽车汽配
  • 橡胶
  • 工程
  • 加工
  • 仪器仪表
  • 纺织
  • 服装
  • 电子元器件
  • 物流
  • 化塑
  • 食品
  • 房地产
  • 交通运输
  • 能源
  • 印刷
  • 教育
  • 跨境电商
  • 旅游
  • 皮革
  • 3C数码
  • 金属制品
  • 批发
  • 研究和发展
  • 其他行业
需求描述
填写以下信息马上为您安排系统演示
姓名
手机号码
你的职位
企业名称

恭喜您的需求提交成功

尊敬的用户,您好!

您的需求我们已经收到,我们会为您安排专属电商商务顾问在24小时内(工作日时间)内与您取得联系,请您在此期间保持电话畅通,并且注意接听来自广州区域的来电。
感谢您的支持!

您好,我是您的专属产品顾问
扫码添加我的微信,免费体验系统
(工作日09:00 - 18:00)
电话咨询 (工作日09:00 - 18:00)
客服热线: 4008 868 127
售前热线: 189 2432 2993
扫码即可快速拨打热线