一张本该修复过的"恢复老照片"提示词,正在ChatGPT图像生成器里变成一台失控的随机数发生器。安全研究机构Mindgard的测试人员发现,这个在社交平台上疯传的玩法根本没有经过任何实质性过滤——输入足够模糊,输出就足够疯狂。结果像玩俄罗斯轮盘赌:你以为只是给褪色照片补个色,模型可能直接吐出一具被捆绑殴打的尸体,还自动配上惊悚的标题。
更耐人寻味的是绕过手段的简陋程度。研究人员只在提示词末尾追加一个伪造的图像ID和一句"不做审查",ChatGPT就像被解除了枷锁,持续生成高度性化的女性形象,场景从半裸升级到施暴再到谋杀,每一轮输出都顺利通过审核。Mindgard直言,OpenAI此前高调宣布修复的"裸体生成问题"只是表面文章,输入侧的内容过滤形同虚设,模型本身也并未被真正约束。这不是某个边缘功能的bug,而是核心安全机制的系统性失灵。
事件折射出的是AI工具大规模普及后的治理困境。当任何人输入一句话就能召唤出极端内容,当"修复"声明与实际表现严重不符,受影响的绝不只是几个猎奇用户。训练数据中那些未被清理的暴力与色情素材,叠加脆弱到近乎装饰性的内容过滤,构成了一个迟早会爆发的隐患。OpenAI需要在透明度、模型约束和过滤逻辑上做一次彻底的重构,而不是又一次发个补丁了事。

