端侧大模型跑不动?那是过去式了。阿里通义实验室的MNN推理引擎最近完成了一次关键迭代——深度适配Arm SME2指令集,让Qwen3-VL-4B-Instruct这款4B参数视觉语言模型,在支持SME2的vivo X300上跑出了实时多模态推理的效果。Prefill阶段性能直接拉升81%,Decode阶段也有13%的涨幅。这不是PPT数据,而是手机端实测跑出来的数字。
81%的Prefill提速,到底快在哪?
Prefill与Decode,两种截然不同的算力胃口
先说背景。Transformer模型推理时,Prefill阶段负责一次性吃完整段输入——对多模态模型来说,这意味着图像编码、文本tokenization、所有初始位置编码要一次性塞进计算图。这阶段吃的是并行算力,对CPU的SIMD(单指令多数据)指令宽度极其敏感。Decode阶段则反过来,是一个token接一个token往外吐,串行依赖极强,更看重内存带宽和调度延迟。两者的性能瓶颈完全不同,这也是为什么"端侧跑大模型"这件事一直以来都不性感——手机CPU既没英伟达那种恐怖的并行吞吐,也缺乏针对AI推理的专用加速。
SME2踩中了Prefill的痛点
Arm SME2(Scalable Matrix Extension 2)是Armv9架构里的新一代矩阵扩展指令集,本质上是在CPU层面塞进了一条专门处理矩阵乘加的通路。图像patch编码后的矩阵运算、QKV投影、注意力矩阵——这些Prefill阶段最重的活儿,正好是SME2的强项。MNN团队做的事不算玄学:把算子层面的关键路径重写,让Prefill阶段高密度矩阵操作直接走SME2指令。81%这个数字背后,是把原本靠NEON(Arm上一代SIMD指令集)反复循环堆出来的算力,换成了矩阵扩展指令的一次性吞吐。
MNN的"编译时+运行时"双保险设计
默认开启,不让开发者做选择题
这次适配最聪明的地方,不是性能数字本身,而是产品决策。MNN没有把SME2加速做成一个需要手动开启的隐藏开关,而是采用"编译时内建+运行时自动检测"的方案——开发者编译时,相关SME2代码路径已经内置;运行时,引擎自动嗅探当前设备的CPU能力,检测到SME2支持就自动启用,跑出极致性能;不支持?自动降级到NEON或普通路径兜底,不崩不退化。对开发者来说,这意味着同一个APK、一份编译产物,能在SME2设备上满血输出,在老设备上正常保底运行——零额外适配成本。
量化模型开箱即用,部署门槛被打到地板
4B参数的多模态模型听起来吓人,但MNN官方已经提供了转换和量化后的模型文件,开发者直接下载部署就行。配合SME2的硬件加速路径,从模型获取到手机端跑起实时多模态对话,整个链条被压缩到"下载几个文件+打开编译开关"的程度。这意味着什么?意味着做移动端AI的团队,不再需要养一个专门的算子优化工程师——MNN把最硬的活儿干完了,留给开发者的就是一个能用的接口。
端侧多模态推理,终于过了实用门槛
为什么Qwen3-VL-4B是这个节点的关键变量
参数规模的选择从来不是随便定的。4B级别的视觉语言模型,正好踩在手机内存和算力的甜区——既能承载真正可用的图文理解和对话能力,又不至于大到无法在端侧实时运行。Qwen3系列本身在开源社区的认可度已经验证过,VL版本把图像理解能力接进来后,"看图说话""截图问答""拍文档提取信息"这些场景就具备了落地的底子。在SME2加持下,Prefill响应几乎无感——用户点开相机扫描、拍一张商品图让AI讲解,模型在几十毫秒到百毫秒级别就能给出初步反馈,这已经是"实时"的体感。
移动端AI团队可以抄的作业
往深一层看,MNN这套打法给整个端侧AI生态提供了一个范本:底层硬件特性+推理引擎适配+官方量化模型+零成本启用——四个环节扣死,把"端侧跑大模型"从研究Demo推进到工程产品。对vivo X300用户来说,这意味着X300 Pro那颗带SME2的处理器,终于有了真正能打的应用场景;对其他手机厂商来说,这也传递了一个清晰信号:Arm SME2不再是一份写在芯片手册里的规格参数,而是一个可以被立刻调用的加速器,端侧AI的硬件红利期到了。
还没解决的硬骨头
当然,也别太乐观。81%的Prefill提速只覆盖了推理链路的一小段,Decode阶段13%的提升才是真正影响对话流畅度的关键——这部分受限于内存带宽和能效比,光靠指令集优化很难再有数量级突破。4B参数模型的上下文窗口、复杂推理能力,和云端那些70B、100B+的大模型仍有代差。端侧多模态推理的"实时"目前还停留在轻量任务级别——聊几句、看个图、提取个信息——一旦涉及长文档、多轮复杂推理,体验依然会显著掉档。
从这次适配看端侧AI的下一个战场
硬件红利期,谁能先把引擎跑通?
Arm在v9架构里押注SME2,本质上是冲着苹果Neural Engine和高通Hexagon NPU去的——它要在CPU层面提供一个不输专用AI加速器的选项。MNN这次适配的动作足够快,意味着阿里在端侧AI基础设施上的嗅觉是到位的。可以预见,接下来半年到一年,会有更多推理引擎、更多模型架构针对SME2做专门优化。竞争焦点会从"模型能不能跑"转向"谁跑得更省电、更低延迟、更高吞吐"——这是硬件红利期典型的技术演化路径。
多模态才是端侧AI的终极战场
纯文本对话模型在端侧的价值始终受限——用户掏出手机,大多数时候需要的是"看世界"的能力,拍照、识别、翻译、提取、问答,这些场景天然绑定视觉输入。Qwen3-VL-4B-Instruct加上SME2的组合,本质上是在为"手机成为感知终端"这件事铺路。当端侧模型能在百毫秒内完成一次完整的视觉理解与对话响应,APP形态本身都可能发生重构——不再是人主动打开软件查询,而是手机实时理解用户所处的环境,主动提供信息和服务。这条路还很长,但MNN这次的81%提速,是通往那个未来的一步实打实的路基。

