1B参数能干翻8×7B的NatureLM?你没看错,LOGOS就是这么一个不讲武德的存在。由ATH-Token Foundry和中国人民大学高瓴人工智能学院联合开源,这个号称"首个基于统一科学语法的多领域科学生成基础模型",在六个完全不同赛道上把领域专用方法按在地上摩擦。更关键的是,1B体量做到这些事——这意味着科学发现不必再围绕那些又贵又慢的巨型模型打转了。
核心思路说起来不复杂:把蛋白质、小分子、MOF材料统统编码成同一套离散Token,再用空间交互离散化代替3D坐标预测。换句话说,LOGOS让"序列"成为科学建模的统一接口,而不再依赖扩散模型对三维结构的那套笨重渲染。这套统一词汇表的威力直接体现在数字上:口袋条件配体生成上,纯序列范式首次超越3D扩散模型,逆合成预测Top-1准确率冲到74.8%,口袋位点识别仅靠序列就拿到58.5% Top-n准确率,MOF材料生成的NBB指标也从原基准拉到17.78%。每一项都不只是"接近",而是明确"匹配或超越"专用方法。
预训练和下游任务共享同一套形式与目标,这听起来像是设计哲学层面的话术,但实验结果证明跨领域知识迁移确实在发生——一个在化学上学到的归纳偏置,确实能帮到材料生成任务。对AI4S赛道的玩家来说,LOGOS更现实的意义在于门槛:模型权重、推理代码、技术报告全部开源,参数量只有NatureLM的1/56,本地部署一张卡就能跑起来。专用模型和通用模型之间那条曾经泾渭分明的边界,正在被这个1B小钢炮一锤一锤地凿开。

