模型声称自己"忘了"某段训练数据——你怎么验证?这事比听上去棘手得多。重训整个 LLM 来对照,成本高到没人愿意真做;但不重训,又凭什么相信厂商的声明?Google Research 在 AISTATS 2026 上甩出一篇论文,正面硬刚这个统计难题。核心武器是一种叫正则化 f-散度核检验的新框架:本质上做一次两样本检验——"声称遗忘后的模型"与"从未见过该数据的参考模型"在输出分布上是否真的不可区分。如果检验通过,才算审计过关。
这事为什么难?因为现有的最大均值差异等工具,在小样本下假阳性(Type I error)控不住,稍有噪声就误报"忘了"或"没忘"。新框架的理论贡献在于,假阳性率可以在任意样本量下被精确控制,不再随数据波动漂移;同时,假阴性风险(该忘没忘掉的漏报)随着可用样本增加可靠收敛到零。翻译成工程师语言:给多少审计预算,就能算出多靠谱的结论,不用赌运气。
落地的现实意义是,机器遗忘从一种"承诺"变成了可被独立验证的统计事实。在 GDPR"被遗忘权"、数据泄露后的模型净化、以及越来越普遍的版权内容撤回场景下,监管方和企业不再需要逼着模型团队从零重训一遍几百亿参数的庞然大物——跑一遍检验,就能拿到一份有统计置信度背书的审计报告。算力成本下来了,合规博弈的天平却悄悄往审计方倾斜了一寸。

