国内顶尖AI研究团队深度求索(DeepSeek)今日在arXiv上发布了重磅论文,提出了一种名为“MeanFlow Attention”的创新注意力机制。该机制旨在解决超长文本生成过程中,传统Transformer架构推理速度随上下文长度增加而大幅下降的痛点。
通过对注意力矩阵进行时空维度的均值漂移优化,DeepSeek成功将长文本推理速度提升了4倍,同时在长达20万Token的上下文关联任务中,精度几乎保持零损耗。目前,该技术已率先应用在其最新的DeepSeek-V3系列模型中。
北大的科研团队在实测后表示,这一改进对于法律、医疗等需要处理超长文档的行业具有革命性意义。DeepSeek再次证明了其在算法层面的极致优化能力,为全球开发者提供了一个低成本、高性能的开源大模型选择。

