inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

发布时间: 2026-06-13 文章分类: AI前沿技术
阅读量: 0
AI智能体
企业级AI智能体开发与部署
LumeValley提供全栈式企业级AI智能体开发与部署服务,涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化,确保智能体高效稳定运行,助力企业实现智能化转型,提升运营效率与竞争力。

屏幕截图扔进去,一句中文指令丢进去,模型直接吐出 [x,y] 坐标——这就是蚂蚁 inclusionAI 刚扔上 HuggingFace 的 VISTA-4B 在做的事。它不画 UI、不生成代码、不写自然语言回复,只回答一个问题:用户说的那个按钮在屏幕的哪个像素?对于做桌面自动化、RPA、Agent 落地的团队来说,这个颗粒度的模型反而是刚需——你不需要它"理解"界面,你只需要它"找得到"。

模型骨架:4B 参数,刚刚好够用

为什么是 Qwen3.5-4B,而不是更大的

VISTA-4B 没有自己从头训一个视觉编码器,也没有套用 70B 级别的语言模型当大脑。它直接拿 Qwen3.5-4B 当骨干——这个尺寸卡在一个很微妙的位置:4B 的多模态理解能力已经被前几代 Qwen 验证过足够覆盖 GUI 场景,同时单卡推理成本可控,本地部署门槛低。对做 Agent 的人来说,"能跑在一张消费级显卡上"比"刷榜高 0.5 分"重要得多。inclusionAI 显然想清楚了这件事:与其卷参数量,不如把同样的 4B 榨干到 GUI 这个垂直赛道的极限。

输入输出协议,简单到粗暴

接口设计没有花活。截图加一句自然语言指令,模型吐出归一化到 0-1000 的坐标。这套协议意味着前端传一个分辨率任意的截图,后端不用做任何 padding、resize、归一化预处理,坐标直接拿来乘以屏幕宽高就能用。写 Agent 脚本的人最痛恨的就是输入输出格式不统一——VISTA-4B 这种"塞进去、吐出来"的极简设计,省掉的不是几行代码,是一整个数据预处理管道的维护成本。

训练方法论:两个名字很长但思路很朴素的技巧

视图一致 GRPO:让模型学会"换角度看问题"

GUI 截图的最大麻烦是同一个按钮在不同分辨率、不同 DPR、不同主题下长得完全不一样。inclusionAI 引入了视图一致 GRPO 训练策略,本质是把"同一界面元素在不同视觉条件下被正确指认"作为奖励信号。模型如果只在高分辨率训练集上表现好、在低分辨率截图上指不准,奖励就低。这相当于在强化学习阶段强制模型建立"坐标级视觉不变性"——一个按钮不管缩放到什么比例,落在屏幕的哪个位置,模型都得能戳中。比起传统 SFT 的硬标注,GRPO 的好处是它能容忍标注噪声,模型自己学会"哪些点击是对的、哪些是错的"。

自验证交叉视图锚定:让模型在训练时自己挑错

第二个创新点更狠:自验证交叉视图锚定。训练过程中,模型会被要求对同一界面元素在不同视角(不同分辨率、不同渲染状态)下都给出坐标预测,然后这些预测之间互相校验——如果模型在不同视图下给出的坐标一致,就给正向锚定;不一致就触发自验证回路重新调整。这种"自己给自己出考题"的训练范式,在视觉 grounding 领域并不新鲜,但用在 GUI 这种元素密集、布局高度结构化的场景里,效果放大得很明显。它本质上解决了 GUI grounding 最大的痛点:模型会"幻觉坐标"——明明界面上没有那个按钮,模型偏要指一个位置。自验证机制相当于给幻觉装了一个刹车。

基准表现:小幅刷新,不是碾压

SSPro 与 SSV2:一张一卡的微妙平衡

直接看数字。SSPro 得分 64.2,相比同尺寸的 GRPO-4B 基线提升 2.0;SSV2 得分 93.8,反而微跌 0.4。这组数据说明一个事实:VISTA-4B 在"屏幕截图理解"这条更细粒度的赛道上进步明显,但在"网页截图元素定位"这种已经接近饱和的任务上,优化反而带来了一点 trade-off。93.8 这个分数本身已经在天花板附近,0.4 的波动大概率是测试集分布差异而非真实能力退化。换句话说,inclusionAI 用 SSPro 的进步换了 SSV2 的微弱让步——这个交换在商业落地场景里是划算的,因为 SSPro 更贴近真实桌面软件的复杂度。

OSWorld-G 与 OSWorld-G-R:Agent 落地最看重的两个数字

OSWorld-G 拿到 61.2,提升 1.3;OSWorld-G-R 拿到 69.7,提升 0.5。这两个基准才是真正决定 VISTA-4B 有没有人用的关键。OSWorld-G 系列评测的不是"模型能不能看懂界面",而是"模型给出的坐标能不能让 Agent 真的完成任务"——它会模拟真实操作系统环境,根据模型的坐标点击来验证操作是否成功。61.2 的绝对分不算高(人类基线在 70+),但 1.3 分的提升对开源 4B 模型来说已经是实打实的工程价值。69.7 的 Refined 版本更进一步,专门测试模型在"多步任务、需要跨界面跳转"场景下的 grounding 稳定性——0.5 的提升看起来小,但这个分数段的边际收益本来就难拿。

落地建议:怎么用、怎么避坑

提示词工程:官方推荐的那套不能省

HuggingFace 仓库里直接给了推荐提示词模板,别自己瞎写。VISTA-4B 对提示词的格式有一定敏感性——指令表述方式、坐标输出格式的约束词,都会影响输出稳定性。官方模板的核心套路是:明确告诉模型"返回一个长度为 2 的列表 [x, y],值在 0-1000 之间",并在指令里精确描述目标元素的视觉特征而不是功能特征。"那个红色的关闭按钮"比"用来关闭窗口的按钮"效果更好——因为模型训练时看到的多是视觉特征标注,语义描述反而会让它去"猜"而不是"找"。

坐标后处理:别直接乘屏幕宽高

模型吐出的 0-1000 归一化坐标看似能直接用,实际落地时建议加一层 sanity check:检查坐标是否落在元素实际存在的 ROI 区域内、检查坐标是否对应可点击元素而非纯文本或装饰元素。VISTA-4B 的 61.2 分意味着大约 39% 的情况下,模型给出的坐标是不准确的——这不是模型差,而是 GUI 任务的本质难度决定的。生产环境里最好把 grounding 模型作为"粗定位器"用,后面再接一层基于图像相似度的精校准,或者直接让 Agent 在点击前截图比对一次。

与 Agent 框架的集成方式

目前主流的开源 Agent 框架(OSWorld、CUA、UI-TARS 系列)对 VISTA-4B 的支持还在跟进。如果是自己搭 Agent 流水线,最干净的做法是把 VISTA-4B 封装成一个独立的 grounding 服务,截图和指令通过 HTTP 传入,坐标 JSON 返回。这样做的好处是模型推理和 Agent 决策逻辑解耦——Agent 可以异步批量发起 grounding 请求,也可以根据任务复杂度决定要不要调用 grounding 模型(简单任务用规则引擎就够了)。4B 模型在单卡 A100/A10 上推理延迟可以压到 200ms 以内,这个响应速度对实时交互式 Agent 是够用的。

开源生态里的位置

不是另一个 UI-TARS,而是另一种选择

把 VISTA-4B 放进当前的开源 GUI Agent 生态里看,它的位置很清晰:UI-TARS 系列主打"大一统"——一个模型既做 grounding 又做 planning 又做 action,参数规模大、能力强但部署成本高;VISTA-4B 反过来,只做 grounding 这一件事,参数压到 4B,部署门槛降到消费级显卡。这种"垂直拆分"的思路在工程上更友好——你可以用 VISTA-4B 做 grounding,用一个更强的 70B 模型做 planning,两边各司其职,硬件预算也能分摊。对于不想被某个"全家桶"模型绑定的小团队来说,这种 modularity 反而是真正的自由。

蚂蚁 inclusionAI 的开源节奏透露的信号

从命名规范、技术报告的口径、HuggingFace 仓库的整洁度看,inclusionAI 这一轮的开源动作明显是有节奏的。VISTA-4B 不是孤立发布——它大概率是某个更大 Agent 工具链的一环,未来还会有 planning 模型、action 模型陆续放出。对于关注蚂蚁系开源项目的开发者来说,现在开始跟踪 inclusionAI 的仓库列表是值得的:他们的工程审美和文档质量在国内开源团队里属于第一梯队,README 里的提示词模板、推理脚本、评测脚本写得清清楚楚,省掉了大量二次开发的踩坑时间。

AI智能体
企业级AI智能体开发与部署方案
LumeValley打造企业级AI智能体全流程方案,涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验,确保智能体精准理解业务,高效执行任务,无缝融入企业生态,为企业数字化转型提供强劲智能引擎,提升核心竞争力。
点赞 | 100

Lumevalley——全栈AI服务领航者,以“战略-应用-算力”三位一体服务框架,为企业提供从顶层战略规划、场景化AI智能体(AI Agent)开发/搭建/部署,到企业级AI应用开发、AI+行业场景解决方案的全链路服务,并配套AI大模型部署与高性能AI算力底座支撑,助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。

马上扫码获取产品资料
相关文章

相关文章

填写以下信息, 免费获取方案报价
姓名
手机号码
企业名称
  • 建筑建材
  • 化工
  • 钢铁
  • 机械设备
  • 原材料
  • 工业
  • 环保
  • 生鲜
  • 医疗
  • 快消品
  • 农林牧渔
  • 汽车汽配
  • 橡胶
  • 工程
  • 加工
  • 仪器仪表
  • 纺织
  • 服装
  • 电子元器件
  • 物流
  • 化塑
  • 食品
  • 房地产
  • 交通运输
  • 能源
  • 印刷
  • 教育
  • 跨境电商
  • 旅游
  • 皮革
  • 3C数码
  • 金属制品
  • 批发
  • 研究和发展
  • 其他行业
需求描述
填写以下信息马上为您安排系统演示
姓名
手机号码
你的职位
企业名称

恭喜您的需求提交成功

尊敬的用户,您好!

您的需求我们已经收到,我们会为您安排专属电商商务顾问在24小时内(工作日时间)内与您取得联系,请您在此期间保持电话畅通,并且注意接听来自广州区域的来电。
感谢您的支持!

您好,我是您的专属产品顾问
扫码添加我的微信,免费体验系统
(工作日09:00 - 18:00)
电话咨询 (工作日09:00 - 18:00)
客服热线: 4008 868 127
售前热线: 189 2432 2993
扫码即可快速拨打热线