DeepSeek又一次把"研究"这个词从人类手里抢走了一截。研究员Deli Chen开源了一套名为AutoResearch的协议,并同步放出一篇Self-play综述论文。整套系统的核心突破在于:AI智能体第一次完全自主地在DeepSeek 285B模型上跑完了完整的强化学习研究闭环——实验设计、写代码、提交GPU任务、debug、生成结论,零人工干预。它甚至调用了GRPO工具来推进训练。这不是又一个大模型发布,而是一套"后厨系统":别人造菜,它把厨房本身拆给你看。
一场没有人类的实验
RL研究闭环到底是什么
强化学习研究从来不是跑个脚本就完事的体力活。一个完整的RL实验闭环至少包括:定义假设、编写训练代码、提交分布式GPU任务、监控训练曲线、排查bug、迭代参数、最后写结论。这套流程对人类研究者来说通常需要数天到数周。而AutoResearch把每一环都交给了AI智能体自己。更关键的是,285B这个体量的模型不是玩具——它意味着系统必须处理真实的工程复杂性,包括显存调度、通信开销、训练稳定性等工业级问题。AI搞砸了没有人类兜底,只能靠自己debug出来。
GRPO工具的调用逻辑
GRPO(Group Relative Policy Optimization)是DeepSeek自家提出的RL算法,核心思路是用组内相对优势替代传统critic模型,省掉一半的训练开销。AutoResearch在自主研究过程中调用了GRPO相关工具,这意味着系统不仅能写代码,还知道"什么时候该用什么工具"。这种工具调用的判断力,是自主研究和自动脚本的本质区别——后者只会按指令执行,前者需要理解实验目标与资源约束之间的关系。
开源协议里藏着的五个工程思路
任务拆解:从模糊目标到可执行单元
AutoResearch面对的不是"训练一个好模型"这种模糊指令,而是把研究目标拆成一个个可验证的小单元。比如"在285B上验证X假设"会被分解成:数据采样策略、reward函数设计、训练步数设定、评估指标定义。每个单元都有明确的成功标准,AI智能体逐个击破。这种拆解方式解决了大模型自主执行任务时的"幻觉问题"——AI不会因为目标太抽象而开始瞎编。
错误恢复机制
训练崩了怎么办?代码报错了怎么办?GPU任务被OOM杀掉了怎么办?AutoResearch内置了一套错误恢复策略:捕获异常→分析日志→定位原因→修改代码→重新提交。整个过程不需要人类点一下"重试"。这背后其实是把debug流程标准化了——常见的训练失败模式有规律可循,AI只需学会匹配模式并执行对应的修复模板。
GPU资源的博弈
285B模型的训练不是单机游戏,它涉及多卡甚至多机分布式调度。AutoResearch需要理解GPU集群的排队逻辑、显存分配、任务优先级。换句话说,AI智能体得学会"抢资源"——什么时候提交、提交到哪个队列、用什么并行策略。这把AI研究的自动化从"算法层面"推进到了"基础设施层面"。
Self-play综述:另一条隐藏线索
为什么是现在发综述
Deli Chen同步发布的Self-play综述论文不是巧合。Self-play(自博弈)是让AI通过与自己的副本对战来提升能力的方法,在围棋、星际争霸等场景已经验证有效。但在大语言模型RL训练中,self-play还没有成熟的范式。综述的目的很可能是为AutoResearch后续的自博弈研究做理论铺垫——让AI智能体不仅能跑实验,还能设计出"自己跟自己打"的训练机制。
持续学习研究的开端
AutoResearch目前完成的是"单次实验闭环",但真正的研究是迭代的、累积的。今天的实验结果会影响明天的假设设计,昨天的失败会改变今天的参数选择。把这套闭环跑成"持续学习"模式,才是下一个要攻克的难题。Deli Chen把这个项目定位为"持续学习研究的开端",潜台词很明确:现在能跑通一次,下次就能跑通一百次。AI研究的自动化拐点,或许就藏在这句话里。
对从业者意味着什么
不是替代,是重塑研究流程
AutoResearch不会让RL研究员失业,但它会改变研究的"单位经济"。以前一个博士生花半年跑10组实验,以后一个研究员带一套AutoResearch一天能跑50组。人的角色从"执行者"转向"设计者"——决定研究问题、设计实验范式、解读结果。代码和GPU调度交给AI。这不是降维,是把人推到更高维度的思考层。
可直接借鉴的工程实践
开源协议的真正价值在于它把抽象的"AI自主研究"变成了可落地的代码。无论你的团队规模多大,任务拆解、错误恢复、资源调度这三个模块的设计思路都能直接抄作业。先用AutoResearch的框架改造你现有的实验流程,再逐步接入AI智能体——这比从零自研靠谱得多。DeepSeek这次开的不是模型,是方法论。

