大语言模型在生成长文本时的低效问题一直困扰着学术界与工业界,而这一技术瓶颈在今日被成功打破。来自斯坦福大学与普林斯顿大学的联合科研团队在最新发表的论文中,提出了一种革命性的底层架构设计,一举破解了大语言模型长期存在的“串行魔咒”。
据悉,传统自回归模型在生成Token时必须严格按顺序进行,这导致算力无法被充分并行利用。而该团队研发的全新SSD框架(如SAGUARO),通过在内存调度和注意力机制并行化处理上的重大创新,实现了在不损失模型输出精度前提下的大幅提速。基准测试结果显示,该方案的运行效率比目前全球公认的最强推理引擎还要快出整整2倍以上,为未来在边缘设备、甚至智能手机上流畅运行超级模型提供了坚实的理论与工程基础。

