“能看图”了。OpenAI 的 Responses API 里,那个埋头苦读网页文本的搜索功能,终于睁开了眼睛。现在,它返回的结果里不仅有文字,还有商品图、地标照片和各类视觉参考。对于正绞尽脑汁想让应用更生动的开发者来说,这消息来得不算早,但绝对够分量。
以前,调用搜索接口就像在图书馆只查目录卡片。你问“海边度假村”,它给你一堆文字描述链接。现在,它能把度假村的实景照片、泳池样貌直接呈现在你面前。这一个看似简单的参数扩展,打通了从“理解查询”到“呈现现实”的最后一环。网页本身就是一个巨大的、未经雕琢的视觉数据库,AI 终于被允许正式地去“看”它了。一个旅游规划应用,在推荐景点时能直接展示用户实拍图;一个购物助手,在列出商品时能附上多角度实物照——**Responses API** 的这次更新,让这些构想瞬间变得触手可及。
这背后是多模能力的必然延伸。AI 正在从一个“语言模型”进化成一个“世界模型”,而图像是数字世界的通用语。让搜索结果包含图片,不是锦上添花,而是补全能力拼图的关键一步。它意味着模型能更立体地理解信息:一张图片里的场景、物体、氛围,都是文本难以穷尽的上下文。对于开发者而言,API 返回的每张图片,都是一个现成的、可被应用直接调用的视觉素材库,极大地降低了构建富媒体应用的成本与复杂性。搜索正在变得“可读”且“可观”,这才是真正交互的开始。

