当所有人都在卷智能体的工作流设计时,EurekAgent 团队做了一件反直觉的事——把研究的焦点从 agent loop 本身挪开,转头去死磕执行环境。结果呢?这个叫 EurekAgent 的大语言模型智能体系统,在数学、内核工程、机器学习三类任务上齐刷刷刷新 SOTA,其中最炸裂的一笔战绩是:花不到 11 美元的总 API 成本,独立发现了 26 圆填充问题的一个新纪录。这条路如果走得通,低成本自主科研的天花板将被彻底掀翻。
别再死磕流程了,环境才是真正的瓶颈
过去两年,AI for Science 的论文几乎长一个样:提出一套新的智能体编排框架,给大模型装上工具调用、反思、规划、自我批评……然后跑几个基准,报告一个提升百分比。但 EurekAgent 团队观察到一件事——这些流程设计得再花哨,落到真实科学发现场景里依然笨拙。问题出在执行环境上。
为什么流程设计卷到头了
把大模型塞进一个 agent loop 里,让它自己规划、自己执行、自己纠错——这套范式在 benchmark 上跑得通,不代表在科研上能跑通。原因很直接:科学发现需要长时序、有状态、跨工具的协作。模型今天写了一段代码,明天还要回头验证、再后天要把结果存进版本控制。这种持续性恰好是普通 agent loop 最短的那块板。
环境工程:被忽视的杠杆
EurekAgent 抛出的核心命题是:与其继续在 prompt 编排和规划策略上做加法,不如把执行环境本身当成产品来打磨。给它一个干净的隔离沙箱、给它文件系统、给它 Git、给它成本仪表盘、给它一个随时可以插手的接口——模型在这样的环境里,能做的事远比裸跑 agent loop 多得多。
四维工程:拆开 EurekAgent 的骨架
EurekAgent 的设计哲学可以拆成四条互相咬合的工程线。它们不是功能模块的拼盘,而是一套约束驱动的环境契约——让大模型在每一层都面对可量化、可监督的边界。
权限工程:让模型碰不到不该碰的东西
科研任务里,模型可能误删文件、误覆盖结果,甚至把系统搞崩。EurekAgent 的权限层把执行和评估严格隔离开来:模型能跑代码,但跑完之后必须在受控环境里接受验证。这一层的设计思路和现代云原生安全里最小权限原则如出一辙,只不过约束对象从人类开发者换成了 LLM。
产物工程:把每一次实验变成可追溯的资产
文件系统 + Git 是 EurekAgent 产物层的两大支柱。模型写的每一段代码、产出的每一个数字、生成的每一张图,都会被持久化并纳入版本管理。这样做的好处有两层:表层是让实验可复现,深层是让模型自身能沿着自己的历史回溯——这是连续性发现行为的基础设施。
预算工程:用真金白银逼出效率
大多数智能体框架只关心能不能跑通,不关心花了多少钱。EurekAgent 反其道行之,把 API 成本当成一等公民:模型在每次决策前都能看到自己的余额,规划路径时会被迫考虑性价比。这正是它能用不到 11 美元跑出圆填充新纪录的底层原因——预算不是限制,而是塑造探索策略的塑形力。
人在回路:监督成本必须低到愿意点
科研自动化最大的反模式是:把人类当成最后一道审稿人,结果每次干预都要写十行指令。EurekAgent 把人在回路的接口削到极简:批准、否决、给一行提示,三种动作覆盖九成监督场景。当监督成本低到研究人员愿意随时点一下,人机协作才真正成为可能。
11 美元撬动数学新纪录,凭什么?
圆填充(Circle Packing)问题是组合数学里的经典难题:在单位圆里塞进 N 个互不重叠的圆,最大能塞到多大?对于 N=26 这个具体取值,研究人员已经花了数十年。EurekAgent 的智能体在预算约束下自己啃下了一道新结果,而且总开销不到一杯星巴克的钱。
数学发现:靠的是约束,不是灵感
很多人以为数学发现需要天才的灵光一现,实际上大规模约束求解才是绝大多数进展的真正引擎。EurekAgent 在这里扮演的角色,本质上是一个极度自律的搜索者:给定问题结构,给定工具链,给定严格的时间与成本上限,它在搜索空间里反复试探、剪枝、积累。这种方式下出的成果未必比人类数学家更优雅,但一定比人类更耐心。
内核工程:把代码写到 Linux 的尺度
数学只是 EurekAgent 秀肌肉的一个舞台。在更硬核的内核工程任务上,它同样拿出了 SOTA 成绩。Linux 内核里动辄上万行的 C 代码、错综复杂的依赖关系、严苛的性能要求,是大模型传统弱项的反面。EurekAgent 在这种环境里能跑出来,说明环境工程化确实把模型的可用边界往外推了一大截。
机器学习:自身领域的反身性
更有意思的是,EurekAgent 还在机器学习任务上刷了 SOTA——也就是说,它在改进自身的母领域。这层反身性揭示了一个不太被讨论的事实:当 agent 环境被工程化到足够成熟,它能反过来加速 ML 本身的研究节奏。
开源之后,门槛被踩到地板
EurekAgent 的代码和实验结果已经全部公开。这意味着任何实验室——哪怕是预算紧张的本科生小组——都能搭起一套同等规格的环境,开始自己的自主科研实验。这种门槛扁平化的影响,可能比单篇论文的几个 SOTA 数字深远得多。
科研民主化的下一站
过去十年,开源运动把深度学习模型拉下了神坛;EurekAgent 这类工作,可能正在把自主科学发现拉下另一个神坛。当一个博士生用一个下午和十几美元就能复现前人花数月才能追平的成果,科研资源的分配逻辑将被重写。
留给社区的开放问题
当然,兴奋之余也要冷静:11 美元的新纪录在数学上是真贡献,但 EurekAgent 范式在更模糊、更依赖直觉的领域——比如理论物理或纯数学猜想——是否还能保持同样的性价比?环境工程的天花板在哪里?这些问题的答案,可能要等下一批在这个开源地基上长出来的工作来回答。

