DeepSeek 的识图模式终于从内测熬成了正式版,6月18日同步登陆网页端和 App 端,和快速模式、专家模式并列排开,算是把这个月最受关注的 AI 产品更新之一落下了实锤。有意思的是,App 端入口处还挂着“图片理解功能内测中”的老标签,网页端倒是干净利落没留尾巴——这种产品上线节奏里的小毛刺,反而暴露了团队内部对“正式”与“内测”边界的定义并不那么死板。抛开这些边角料,这次更新的真正看点,在于 DeepSeek 把多模态能力拉到了和文本对话同一级别的入口位,而不是藏在某个二级菜单里等用户自己翻。
识图不是新功能,但入口位是新战场
为什么现在才“正式”
DeepSeek 并不是今天才具备看图能力。早在 4 月,背后的多模态模型技术论文就已经把核心框架公之于众,名字叫“Thinking with Visual Primitives”,直译过来是“以视觉原语思考”。这套方法论的核心逻辑,是让模型不直接理解整张图像的语义,而是先拆出一批基础的视觉元素——线条、纹理、形状、局部区域——再用这些元素去拼装对图像的推理。换句话说,模型“看到”一张图的方式,和人类画家先打草稿再上色有几分相似,先抓住局部特征,再完成整体理解。
技术论文公开和产品功能正式上线之间隔了两个多月。这段时间里,DeepSeek 显然在做的事情不是“从零造一个新功能”,而是在等模型稳定、推理成本可控、合规审核过关之后,才把入口摆到台面上。AI 产品上线节奏里最容易被低估的就是这一步——很多团队误以为模型能力达标就等于功能可用,实际上从“能跑”到“敢开放给所有人”之间,还有大量工程化和稳定性工作要补。
产品入口的微小变化,背后是定位调整
把识图模式和快速模式、专家模式并列摆放,这个动作比功能本身更值得关注。它意味着 DeepSeek 在产品层面正式把“多模态”从附属能力升格为三大主能力之一。普通用户点开 App,第一眼就能看到三个并排的模式选项,识图不再是一个隐藏在“+”号菜单里的高级功能。
这种入口位的前移,反映的是 AI 厂商对用户行为的一次校准。过去一年里,最被高估的 AI 应用场景是大模型陪你聊天,最被低估的反而是“让 AI 替我看完这张图”。后者在中文工作流里出现的频率极高——截图里的报错信息、PDF 里的图表、社交网络上随手保存的表情包——都是典型的“看一眼就能解决、但打字描述很费劲”的场景。DeepSeek 这次把入口往前挪,就是在赌这个被低估的需求池子已经大到值得给一个固定坑位。
“视觉原语”这套打法,和别的多模态思路有什么不一样
不是 OCR,是真“看懂”
很多用户对 AI 识图的第一反应是“能不能提取图片里的文字”,这其实是对“识图”最朴素的期待,也是最容易被满足的期待。OCR 工具干了二十年的活,现在随便一个大模型都能顺手做掉。但 DeepSeek 这套框架的目标显然不止于此。视觉原语思路下,模型先拆解图像的局部特征,再基于这些特征做推理,理论上可以处理更复杂的任务——比如理解一张梗图的笑点、解读一张产品截图里的功能逻辑、甚至对一张设计稿给出修改建议。
能力上限被抬高之后,识图功能的使用门槛反而被拉低了。用户不再需要思考“要不要用 AI 来看这张图”,而是像打开手电筒一样随手就用。这种使用习惯的迁移,正是多模态产品真正进入主流工作流的标志。
技术细节尚未完全摊开
到目前为止,DeepSeek 公开的“视觉原语”框架还停留在论文级别的技术说明,工程化层面的具体实现——模型怎么训练、推理链路怎么搭建、计算开销如何控制——都没有完整披露。对于关注 AI 基础设施的从业者来说,这种半透明的披露方式既保留了学术讨论的空间,也给商业竞争留了护城河。
从产品侧观察,识图模式在响应速度和准确率上的表现,目前看处在主流多模态产品的中上水平,没有特别惊艳,也没有明显短板。对于一个刚正式上线的功能而言,这种“不犯错”比“出彩”更重要——它意味着用户第一次使用时的体验是可靠的,这恰恰是功能能否被持续使用的关键阈值。
补课还是破圈?中文用户视角下的真实价值
日常工作的隐性提速
对中文用户来说,识图模式的真正价值不在于它能做什么“高大上”的任务,而在于它悄悄解决的那些琐碎问题。客服截图报错不知道怎么办,发给 AI 让它看;产品说明书是图片格式懒得打字,丢给 AI 提取关键信息;朋友圈看到一张有意思的信息图但字太小看不清,让 AI 帮忙总结——这些场景单独拎出来都不大,但累积起来占据的工作时间相当可观。
DeepSeek 这次更新把这些能力统一到入口位,等于是给中文用户的工作流配了一个“图像助手”。这种产品定位和 OpenAI、Anthropic 等海外厂商的策略是一致的——多模态能力不再作为单独的功能模块售卖,而是融进主对话流里作为基础能力存在。
和同类产品相比,差异化在哪里
市面上不缺识图能力,ChatGPT 能看图、Claude 能看图、Gemini 能看图、通义千问和文心一言也都能看图。DeepSeek 的识图模式正式上线,对它自己而言是从内测到正式的产品补完,对整个赛道而言算不上破圈级别的新闻。但放在中文 AI 产品的语境下,这件事有它自己的分量——DeepSeek 此前在文本对话上的口碑积累,叠加上现在稳定可用的识图能力,形成了一个对中文用户足够友好的组合拳。
真正的差异化从来不是“我也能做”,而是“我做得更顺手”。DeepSeek 的优势在于它把多模态能力的获取路径压缩到了最短——打开 App、点识别图、上传图片、等结果——中间没有任何需要思考的步骤。这种“顺手”才是产品力的真正护城河,也是这次更新最值得被记一笔的地方。至于背后那套“视觉原语”框架到底是技术突破还是工程巧思,留给行业分析师去争论就好,普通用户只关心一件事:下次再遇到看不懂的截图时,能不能省下三分钟。

