当一台AI自己设计实验、写代码、提交GPU任务、改bug、再把结论写成报告——而且全程没人碰键盘——你会意识到,2025年最值得记住的一件事,可能不是某个新模型的发布,而是一场关于"谁来做研究"的角色重新分配。DeepSeek研究员Deli Chen把这件事拆成了开源代码,连同AutoResearch协议和一份Self-play综述论文一起放了出来。主角是DeepSeek自家285B级别的大模型,但真正的新闻点不在模型,而在那个能让AI独自跑通RL研究闭环的"后厨系统"。
AutoResearch到底是什么:一套让AI当研究员的协议
不是Agent框架,是研究流水线的完整剧本
市面上常见的Agent项目大多停留在"调用工具完成任务"的层面,AutoResearch显然走得更远。它本质上是一份标准化协议,把RL研究里那些高度重复、却离不开人的环节拆成一个个可执行节点——从一开始的实验设计、到中间的代码生成与GPU任务提交、再到最后的debug和结果总结,全部串成闭环。285B模型作为"研究员"在这条流水线里从头走到尾,没有人类在中间插过一脚。
GRPO的回归:被遗忘的算法成了闭环关键
细看这次系统调用清单,GRPO(Group Relative Policy Optimization)重新进入大众视野。这个算法在DeepSeek-R1时代就已经证明过自己,但真正有意思的是它现在扮演的角色——它不是被人类训练出来的产物,而是被AI智能体主动调用、用以支撑后续实验的工具。换句话说,GRPO在AutoResearch里变成了一个"积木块",一块可以被AI研究员随手取用的强化学习积木。
开源的真正分量:为什么这次不是"又一个仓库"
把"研究动作"本身做成可复用的工程资产
过去两年开源社区释放了大量模型权重、训练脚本,但很少有人把"研究流程"当作一等公民来开源。AutoResearch的不同之处在于,它把实验设计、任务调度、错误修复这些"研究动作"也打包成了可复用模块。对小团队来说,这意味着直接抄作业——你不需要再花三个月搭一套能跑RL实验的Agent系统,Deli Chen已经替你趟过了。
门槛的崩塌:从"会调参"到"会提问题"
这件事对未来研究生态的冲击比想象中更直接。当自主研究智能体能完整跑通一个RL实验闭环,研究人员的核心价值就从"动手做"转移到了"想清楚要做什么"。以后评判一个研究者的标准,可能不是他能不能把PPO调通,而是他能不能提出一个值得AI去跑的问题。
Self-play综述:AutoResearch背后的理论锚点
为什么是Self-play,而不是别的范式
和AutoResearch同步放出的那份Self-play综述论文并不是凑数的。Self-play天然具备"无外部监督信号"的特征,而AutoResearch追求的恰恰是减少人类介入——两件事在底层逻辑上是咬合的。让AI和AI自己对弈、自己评估、自己进化,整个过程不需要人类标注,这套范式几乎是自主研究最理想的训练场。
从工具到生态:持续学习的下一站
把Self-play和AutoResearch放在一起看,Deli Chen真正在搭的是一套持续学习基础设施。第一天,AI智能体用GRPO跑通一个RL实验;第二天,它可能用前一天的实验结果作为先验,去设计下一个更有意思的实验。这种"实验迭代实验"的能力一旦稳定下来,AI研究就不再是单次爆发,而是真正的长跑。
冷静一下:别把AutoResearch捧成万能解
285B只是起点,不是终点
目前AutoResearch验证的载体是DeepSeek自家的285B模型,这当然够大,但还没到可以宣告"通用AI研究员诞生"的程度。模型规模、任务类型、奖励信号设计这些变量,每一个都会影响这套协议的实际表现。把它直接搬到一个完全陌生的研究领域,大概率还是要踩坑。
工程奇迹背后的隐形成本
别忘了,让AI独立完成debug这件事听起来性感,背后是大量被精心设计过的工具链和提示工程。AutoResearch能跑通,不代表任何一个Agent框架都能跑通。开源协议降低了门槛,但调试这套系统本身需要的工程能力,依然是一道看不见的墙。
这件事真正改变了什么
RL研究的"流水线革命"已经启动
OpenAI当年用规模化把预训练变成工业流水线,AutoResearch在做的事,本质上是把RL研究也推进流水线时代。一旦285B级别模型能在无人干预下跑完一个完整研究闭环,下一步的自然延伸就是:把更多模型、更大算力、更复杂的实验装进同一条流水线。
研究者身份的重新定义
最值得琢磨的还是人。当AI能自己跑通整个RL研究流程,研究者的角色不可避免地从"执行者"转向"提问者"和"判断者"——你想做什么样的实验,比你能不能做出来更重要。这不是AI取代研究者,而是AI把研究者从繁琐的执行工作中解放出来,去做那些真正需要创造力和判断力的事情。Deli Chen开源的不仅仅是一份协议,更是这种新工作方式的入场券。

