把企业合同丢进深度研究智能体,让它顺带搜几篇公开行业报告做交叉验证——听起来很合理,对吧?ServiceNow 的研究团队偏要把这个场景拆开看,结果发现马赛克式隐私泄露远比想象中普遍。所谓马赛克效应,就是智能体在执行多跳研究链时,把分散在本地私有文档和外部网页里的碎片信息拼到一起,单看每一片都不敏感,拼出来却足以还原出完整的机密内容。为此他们构建了 MosaicLeaks 基准,包含 1,001 条精心设计的多跳研究链,每条链都交错混合本地子问题与公共子问题,逼着智能体在两者之间反复横跳。
测试结果相当难看:主流深度研究智能体在尝试作答的过程中,频繁无意识地把私有片段吐进答案。更有意思的是,单纯优化任务表现——比如改提示词、换更强的模型——不仅没减少泄露,反而让泄露率从 29.1% 飙升到 34.0%。智能体越聪明,拼接越卖力,泄露反而越严重。这说明隐私问题不是靠"小心一点"就能解决的结构性缺陷,必须从训练层面动手。
基于此,团队提出隐私感知深度研究(PA-DR)强化学习方法,核心思路是把隐私约束直接编入奖励函数,让智能体在追求正确答案的同时学会"闭嘴"。效果相当硬核:严格链成功率从 48.7% 拉到 58.7%,答案层面的信息泄露率从 29.1% 砍到 8.5%,全面信息泄露率更是从 34.0% 压到 9.9%。换句话说,模型既变聪明了,又管住了嘴。对所有做企业级 agent 产品的团队来说,这是一记响亮的提醒:你的智能体越能跨数据源干活,隐私护栏就越不能事后补——得从训练第一天就嵌进去。

