DeepSeek 识图模式正式上线 App 和网页端

发布时间： 2026-06-18 文章分类： AI前沿技术

阅读量： 0

企业级AI智能体开发与部署

LumeValley提供全栈式企业级AI智能体开发与部署服务，涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化，确保智能体高效稳定运行，助力企业实现智能化转型，提升运营效率与竞争力。

DeepSeek 的识图模式终于从内测熬成了正式版，6月18日同步登陆网页端和 App 端，和快速模式、专家模式并列排开，算是把这个月最受关注的 AI 产品更新之一落下了实锤。有意思的是，App 端入口处还挂着“图片理解功能内测中”的老标签，网页端倒是干净利落没留尾巴——这种产品上线节奏里的小毛刺，反而暴露了团队内部对“正式”与“内测”边界的定义并不那么死板。抛开这些边角料，这次更新的真正看点，在于 DeepSeek 把多模态能力拉到了和文本对话同一级别的入口位，而不是藏在某个二级菜单里等用户自己翻。

识图不是新功能，但入口位是新战场

为什么现在才“正式”

DeepSeek 并不是今天才具备看图能力。早在 4 月，背后的多模态模型技术论文就已经把核心框架公之于众，名字叫“Thinking with Visual Primitives”，直译过来是“以视觉原语思考”。这套方法论的核心逻辑，是让模型不直接理解整张图像的语义，而是先拆出一批基础的视觉元素——线条、纹理、形状、局部区域——再用这些元素去拼装对图像的推理。换句话说，模型“看到”一张图的方式，和人类画家先打草稿再上色有几分相似，先抓住局部特征，再完成整体理解。

技术论文公开和产品功能正式上线之间隔了两个多月。这段时间里，DeepSeek 显然在做的事情不是“从零造一个新功能”，而是在等模型稳定、推理成本可控、合规审核过关之后，才把入口摆到台面上。AI 产品上线节奏里最容易被低估的就是这一步——很多团队误以为模型能力达标就等于功能可用，实际上从“能跑”到“敢开放给所有人”之间，还有大量工程化和稳定性工作要补。

产品入口的微小变化，背后是定位调整

把识图模式和快速模式、专家模式并列摆放，这个动作比功能本身更值得关注。它意味着 DeepSeek 在产品层面正式把“多模态”从附属能力升格为三大主能力之一。普通用户点开 App，第一眼就能看到三个并排的模式选项，识图不再是一个隐藏在“+”号菜单里的高级功能。

这种入口位的前移，反映的是 AI 厂商对用户行为的一次校准。过去一年里，最被高估的 AI 应用场景是大模型陪你聊天，最被低估的反而是“让 AI 替我看完这张图”。后者在中文工作流里出现的频率极高——截图里的报错信息、PDF 里的图表、社交网络上随手保存的表情包——都是典型的“看一眼就能解决、但打字描述很费劲”的场景。DeepSeek 这次把入口往前挪，就是在赌这个被低估的需求池子已经大到值得给一个固定坑位。

“视觉原语”这套打法，和别的多模态思路有什么不一样

不是 OCR，是真“看懂”

很多用户对 AI 识图的第一反应是“能不能提取图片里的文字”，这其实是对“识图”最朴素的期待，也是最容易被满足的期待。OCR 工具干了二十年的活，现在随便一个大模型都能顺手做掉。但 DeepSeek 这套框架的目标显然不止于此。视觉原语思路下，模型先拆解图像的局部特征，再基于这些特征做推理，理论上可以处理更复杂的任务——比如理解一张梗图的笑点、解读一张产品截图里的功能逻辑、甚至对一张设计稿给出修改建议。

能力上限被抬高之后，识图功能的使用门槛反而被拉低了。用户不再需要思考“要不要用 AI 来看这张图”，而是像打开手电筒一样随手就用。这种使用习惯的迁移，正是多模态产品真正进入主流工作流的标志。

技术细节尚未完全摊开

到目前为止，DeepSeek 公开的“视觉原语”框架还停留在论文级别的技术说明，工程化层面的具体实现——模型怎么训练、推理链路怎么搭建、计算开销如何控制——都没有完整披露。对于关注 AI 基础设施的从业者来说，这种半透明的披露方式既保留了学术讨论的空间，也给商业竞争留了护城河。

从产品侧观察，识图模式在响应速度和准确率上的表现，目前看处在主流多模态产品的中上水平，没有特别惊艳，也没有明显短板。对于一个刚正式上线的功能而言，这种“不犯错”比“出彩”更重要——它意味着用户第一次使用时的体验是可靠的，这恰恰是功能能否被持续使用的关键阈值。

补课还是破圈？中文用户视角下的真实价值

日常工作的隐性提速

对中文用户来说，识图模式的真正价值不在于它能做什么“高大上”的任务，而在于它悄悄解决的那些琐碎问题。客服截图报错不知道怎么办，发给 AI 让它看；产品说明书是图片格式懒得打字，丢给 AI 提取关键信息；朋友圈看到一张有意思的信息图但字太小看不清，让 AI 帮忙总结——这些场景单独拎出来都不大，但累积起来占据的工作时间相当可观。

DeepSeek 这次更新把这些能力统一到入口位，等于是给中文用户的工作流配了一个“图像助手”。这种产品定位和 OpenAI、Anthropic 等海外厂商的策略是一致的——多模态能力不再作为单独的功能模块售卖，而是融进主对话流里作为基础能力存在。

和同类产品相比，差异化在哪里

市面上不缺识图能力，ChatGPT 能看图、Claude 能看图、Gemini 能看图、通义千问和文心一言也都能看图。DeepSeek 的识图模式正式上线，对它自己而言是从内测到正式的产品补完，对整个赛道而言算不上破圈级别的新闻。但放在中文 AI 产品的语境下，这件事有它自己的分量——DeepSeek 此前在文本对话上的口碑积累，叠加上现在稳定可用的识图能力，形成了一个对中文用户足够友好的组合拳。

真正的差异化从来不是“我也能做”，而是“我做得更顺手”。DeepSeek 的优势在于它把多模态能力的获取路径压缩到了最短——打开 App、点识别图、上传图片、等结果——中间没有任何需要思考的步骤。这种“顺手”才是产品力的真正护城河，也是这次更新最值得被记一笔的地方。至于背后那套“视觉原语”框架到底是技术突破还是工程巧思，留给行业分析师去争论就好，普通用户只关心一件事：下次再遇到看不懂的截图时，能不能省下三分钟。

企业级AI智能体开发与部署方案

LumeValley打造企业级AI智能体全流程方案，涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验，确保智能体精准理解业务，高效执行任务，无缝融入企业生态，为企业数字化转型提供强劲智能引擎，提升核心竞争力。

点赞 | 90

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。