多模态视觉模型这几年走了一条并不平坦的路:图像理解、视频理解、图像生成、视频生成,往往被拆成四套独立管线,拼起来既臃肿又割裂。HYDRA-X 团队的野心很直接——把它们全部塞进一个 Vision Transformer 里,用一套统一的 token 体系搞定。这个 7B 密集模型号称首个在单个 ViT 中实现图像与视频联合 tokenization 的统一架构,效果能否撑得起这份野心,值得细看。
一个 ViT,两个世界
帧级因果注意力:不只是把视频切成图像
把视频丢进 ViT 并不稀奇,过去两年大家都在干这事。但 HYDRA-X 的关键差异在于帧级因果时间注意力——每一帧的表征在时间维度上只能看到它之前的帧,而不是整段视频的所有帧同时做全局 attention。这听起来像是给模型套了个时间枷锁,实际上却带来了双重收益:推理时的显存占用随帧数线性增长而不是平方增长,长视频不再是奢侈品;同时因果结构天然适配自回归生成,让视频续写、视频编辑这种任务有了干净的起点。
层级压缩替代单步猛压
视频 token 数量惊人地多。一种常见做法是把整段视频一股脑压到一个潜变量里,HYDRA-X 显然不认同这条路。它改用层级时间压缩:先把相邻帧合并成短片段,再把短片段压缩成更长的片段,逐层推进。这种设计的好处是低层保留细节纹理,高层保留运动语义,重建时不必在细粒度信息和高层结构之间做痛苦的二选一。
让压缩特征还原成"像样的视频"
解压器:轻量,但有强师
联合教师监督的必要性
压缩完的特征只是个高度抽象的中间产物,要重新变成像素级别的视频帧,必须有个解压器顶上。HYDRA-X 选择了一个轻量级结构,参数规模相比主模型可以忽略不计,但训练信号来自一个联合图像-视频教师。这意味着同一组压缩特征既要能还原图像(静态一致性),又要能还原视频(时序一致性),任一维度掉链子都会被惩罚。
图像与视频的双向校验
图像教师和视频教师在 HYDRA-X 里不是各管各的,而是共享一套对压缩特征的预期。这意味着解压器学到的不是"如何把潜变量变成图像"加"如何把潜变量变成视频"两件孤立的事,而是"同一份语义如何在不同模态下都被忠实还原"这一件事。代价是教师网络的训练更复杂,收益是生成的视频在跨模态任务里表现得更稳。
编辑这件事,被搬到了潜在空间
源-目标交互在分词器内部完成
为什么不在 LLM 层做编辑
大多数多模态编辑系统把源视频和编辑指令扔给 LLM,让 LLM 在语义层面理解"把红色沙发换成蓝色",再让解码器生成新视频。问题在于 LLM 看到的只是高层语义,丢失了源视频里大量的空间细节、材质质感、光照一致性——这些恰恰是编辑结果"假不假"的关键。HYDRA-X 反其道而行,把源-目标交互直接搬进了分词器的潜在层面。
收敛更快、一致性更高
在分词器内部做交互意味着编辑操作作用于已经结构化、富含空间信息的视觉表征,而不是被 LLM 抽象成几个 token 之后的语义骨架。这带来了两个直接收益:训练时收敛速度明显加快,因为模型不用从零开始重建视频的空间结构;推理时编辑结果与源视频的一致性显著提升,尤其是边缘、纹理、运动轨迹这些细节。
7B 密集模型,成绩单
理解与生成的双线作战
图像任务:稳
在标准图像理解基准上,HYDRA-X 的 7B 版本拿出了与同体量专用图像模型相当的成绩。考虑到它的绝大部分参数还要分给视频任务,这个数字本身就不难看。图像生成方面,重建质量与细节保真度也都处在第一梯队,对一个统一架构而言已经相当体面。
视频任务:亮眼,但有取舍
视频理解任务里 HYDRA-X 表现强劲,长视频问答、时序推理这类需要全局感知的子任务上尤其突出。视频生成方面,得益于分层时间压缩和因果注意力结构,长序列生成的稳定性比多数基线更好;但单帧的极致画质仍不是它的强项——这也是统一架构在当前阶段的合理代价。
这套设计给行业留下了什么
统一 token 体系的实战样本
从"拼装"走向"原生统一"
过去的多模态系统本质上是拼装:图像编码器、视频编码器、文本编码器各干各的,最后在 LLM 层融合。HYDRA-X 给出了一个原生统一的样本——图像和视频从分词器开始就是同一个世界的公民。这个方向的价值不只在 HYDRA-X 本身,更在于它证明了 ViT 级别的架构完全有能力承载跨模态的统一表征。
给后续工作留的接口
帧级因果注意力、层级时间压缩、潜在空间编辑——这三个组件彼此独立,又相互咬合。后续工作完全可以挑其中一个替换或扩展,比如把因果注意力换成滑动窗口注意力,把层级压缩换成更激进的离散化方案,把编辑接口开放给更多指令模态。HYDRA-X 的真正贡献,是把这条路走通并把每一段路标都立清楚了。

