每周有超过2.3亿人在ChatGPT上搜索健康问题——头疼挂什么科、化验单怎么看、药物能不能混着吃。OpenAI刚刚把承接这些问询的默认模型换成了GPT-5.5 Instant,而这次升级直接瞄准了一个硬指标:在HealthBench和HealthBench Professional这两套由执业医生参与编写的评测体系上,Instant版本的表现已经追平了GPT-5 Thinking这样的前沿推理模型。换句话说,免费用户现在拿到的健康回答质量,等同于此前需要付费才能解锁的深度思考能力。OpenAI同步放开了使用权限,Plus和免费用户都能直接调用。
更值得关注的不是跑分,而是真实流量的变化。过去两个月,OpenAI对生产环境中的健康类回复做了持续追踪,事实性错误的发生率下降了71%。这个数字怎么来的?本质上是把模型回复和医生评注做逐条对照——哪些问题答错了、哪些药物剂量说反了、哪些建议可能误导患者。错误率的断崖式下降说明两件事:一是GPT-5.5 Instant的医学知识密度和推理链条确实变厚了;二是OpenAI在安全对齐上做了针对性调优,幻觉和越界建议这两类典型故障模式被压到了更低水位。HealthBench Professional那套评测本身就是为高难度场景设计的,涵盖复杂病历推理、多重用药冲突识别、罕见病鉴别等临床决策难点——能在这一层拿到与Thinking模型相当的分数,意味着模型对模糊信息的容忍度和对医学共识的遵循度都上了台阶。
当然,AI给出健康建议的边界始终存在。OpenAI在产品层面也保留了免责声明和引导专业就医的提示,但底层模型能力的提升确实改变了"能不能用"的基线。当一个免费模型在严谨医学评测上跑赢医生手写回复的平均水平、且错误率还在快速收敛时,ChatGPT作为健康信息入口的角色已经被重新定义——它不再只是聊天机器人,而是某种意义上的初级分诊工具。

