Qwen-VL系列

Qwen-VL

阿里巴巴的Qwen-VL是另一个比较经典的模型，十分值得作为案例介绍多模态大模型的训练要点。Qwen-VL使用Qwen-7B LLM作为语言模型基座，Openclip预训练的ViT-bigG作为视觉特征Encoder，随机初始化的单层Cross-Attention模块作为视觉和自然语言的的Adapter，总参数大小约9.6B。

如下图，Qwen-VL的训练过程分为三个阶段：

Stage1 为预训练，目标是使用大量的图文Pair对数据对齐视觉模块和LLM的特征，这个阶段冻结LLM模块的参数；
Stage2 为多任务预训练，使用更高质量的图文多任务数据（主要来源自开源VL任务，部分自建数据集），更高的图片像素输入，全参数训练；
Stage3 为指令微调阶段，这个阶段冻结视觉Encoder模块，使用的数据主要来自大模型Self-Instruction方式自动生成，目标是提升模型的指令遵循和多轮对话能力。

Qwen-VL的另一个启发是在Stage2和Stage3的训练过程中，不止使用VL数据，还使用了纯文本的训练数据，避免遗忘LLM的能力，这个策略的效果在其他的工作中也有所印证。此外，相比InstructBLIP，Qwen-VL模型视觉和LLM的Adapter模块简化很多，仅仅是一个浅层的Attention Pooling模块，通过更加细节的训练流程和更加丰富的训练数据，仍取得了比InstructBLIP更优的效果。

Qwen2-VL

Qwen2-VL 基于 Qwen2 打造，相比 Qwen-VL，它具有以下特点：

读懂不同分辨率和不同长宽比的图片：Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。
理解20分钟以上的长视频：Qwen2-VL 可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。
能够操作手机和机器人的视觉智能体：借助复杂推理和决策的能力，Qwen2-VL 可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。
多语言支持：为了服务全球用户，除英语和中文外，Qwen2-VL 现在还支持理解图像中的多语言文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

整体上我们仍然延续了 Qwen-VL 中 ViT 加 Qwen2 的串联结构，在三个不同尺度的模型上，我们都采用 600M 规模大小的 ViT，并且支持图像和视频统一输入。为了让模型更清楚地感知视觉信息和理解视频，我们还进行了以下升级：

Qwen2-VL 在架构上的一大改进是实现了对原生动态分辨率的全面支持。与上一代模型相比，Qwen2-VL 能够处理任意分辨率的图像输入，不同大小图片被转换为动态数量的 tokens，最小只占 4 个 tokens。这种设计不仅确保了模型输入与图像原始信息之间的高度一致性，更是模拟了人类视觉感知的自然方式，赋予模型处理任意尺寸图像的强大能力，使其在图像处理领域展现出更加灵活和高效的表现。实现的方式就是用 Navit作为visual的encoder以及苏神的2D-RoPE
Qwen2-VL 在架构上的另一重要创新则是多模态旋转位置嵌入（M-ROPE）。传统的旋转位置嵌入只能捕捉一维序列的位置信息，而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分，使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。这一创新赋予了语言模型强大的多模态处理和推理能力，能够更好地理解和建模复杂的多模态数据

Qwen2.5-VL

Qwen2.5-VL 的主要特点如下所示：

感知更丰富的世界：Qwen2.5-VL 不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。
Agent：Qwen2.5-VL 直接作为一个视觉 Agent，可以推理并动态地使用工具，初步具备了使用电脑和使用手机的能力。
理解长视频和捕捉事件：Qwen2.5-VL 能够理解超过 1 小时的视频，并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。
视觉定位：Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体，并能够为坐标和属性提供稳定的 JSON 输出。
结构化输出：对于发票、表单、表格等数据，Qwen2.5-VL 支持其内容的结构化输出，惠及金融、商业等领域的应用。

Qwen3-VL

25年9月，正式推出全新升级的 Qwen3-VL 系列——这是迄今为止 Qwen 系列中最强大的视觉语言模型。

在这一代模型中，我们在多个维度实现了全面跃升：无论是纯文本理解与生成，还是视觉内容的感知与推理；无论是上下文长度的支持能力，还是对空间关系、动态视频的理解深度；乃至在与Agent交互中的表现，Qwen3-VL 都展现出显著进步。

率先开源的是该系列的旗舰模型 —— Qwen3-VL-235B-A22B，同时包含 Instruct 与 Thinking 两个版本。其中，Instruct 版本在多项主流视觉感知评测中，性能达到甚至超过 Gemini 2.5 Pro；而 Thinking 版本更是在众多多模态推理的评测基准下取得了 SOTA 的表现。

Qwen3-VL 的目标，是让模型不仅能“看到”图像或视频，更能真正看懂世界、理解事件、做出行动。主要的升级如下：

视觉智能体（Visual Agent）：Qwen3-VL 能操作电脑和手机界面、识别 GUI 元素、理解按钮功能、调用工具、执行任务，在 OS World 等 benchmark 上达到世界顶尖水平，能通过调用工具有效提升在细粒度感知任务的表现。
纯文本能力媲美顶级语言模型：Qwen3-VL 在预训练早期即混合文本与视觉模态协同训练，文本能力持续强化，最终在纯文本任务上表现与 Qwen3-235B-A22B-2507 纯文本旗舰模型不相上下 —— 是真正“文本根基扎实、多模态全能”的新一代视觉语言模型。
视觉 Coding 能力大幅提升：实现图像生成代码以及视频生成代码，例如看到设计图，代码生成 Draw.io/HTML/CSS/JS 代码，真正实现“所见即所得”的视觉编程。
空间感知能力大幅提升：2D grounding 从绝对坐标变为相对坐标，支持判断物体方位、视角变化、遮挡关系，能实现 3D grounding，为复杂场景下的空间推理和具身场景打下基础。
长上下文支持和长视频理解：全系列模型原生支持 256K token 的上下文长度，并可扩展至 100 万 token。这意味着，无论是几百页的技术文档、整本教材，还是长达两小时的视频，都能完整输入、全程记忆、精准检索，支持视频精确定位到秒级别时刻。
多模态思考能力显著增强：Thinking 模型重点优化了 STEM 与数学推理能力。面对专业学科问题，模型能捕捉细节、抽丝剥茧、分析因果、给出有逻辑、有依据的答案，在 MathVision、MMMU、MathVista 等权威评测中达到领先水平。
视觉感知与识别能力全面升级：通过优化预训练数据的质量和广度，模型现在能识别更丰富的对象类别——从名人、动漫角色、商品、地标，到动植物等，覆盖日常生活与专业领域的“万物识别”需求。
OCR 支持更多语言及复杂场景：支持的中英外的语言从 10 种扩展到 32 种，覆盖更多国家和地区；在复杂光线、模糊、倾斜等实拍挑战性场景下表现更稳定；对生僻字、古籍字、专业术语的识别准确率也显著提升；超长文档理解和精细结构还原能力进一步提升。

关于QwenVL系列，详情可以查看：QwenVL 系列

LLaVA

LLaVA 1.5

同样，微软的LLaVA也是一个持续更新的系列工作，这里主要总结LLaVA和LLaVA1.5的核心思路。下图为LLaVA1.5的数据和模型概况。可以看到，和Qwen-VL相比，LLaVA1.5在预训练和指令微调数据上使用了更少的数据（将Qwen-VL的Stage2和Stage3都视作指令微调）；在模型结构上，除了视觉Encoder和LLM均使用了不同的基座模型，视觉和自然语言的Adapter使用更简单的MLP层。

LLaVA1.5模型的效果在一些评测数据集上相比Qwen-VL有更好的效果，说明通过一些优化工作，使用更少的数据，更简单的Adapter结构，也能使LLM具备不错的多模态理解能力。在数据层面，对比LLaVA1.5和LLaVA工作，通过增加高质量细粒度的VL数据、丰富指令、纯文本指令微调数据、提升图片输入像素、提升LLM参数规模等手段，可以有效提升模型效果。

LLaVA-Onevison

Onevision整合了在 LLaVA-NeXT（llava 1.5）中对数据、模型和视觉表示的见解。实验结果表明，LLaVA-OneVision 是第一个能够在三个重要计算机视觉场景（单图像、多图像和视频场景）中同时推动开放 LMM 性能边界的模型。重要的是，LLaVA-OneVision 的设计允许跨不同模态/场景进行强大的迁移学习，从而产生新的涌现能力。特别是，通过从图像到视频的任务迁移，展示了强大的视频理解和跨场景能力。

这里直接先放出onevistion整体的训练策略

LLaVA-OneVisoion-1.5

LLaVA-OneVision-1.5 是一个全开源的模型，包括代码，数据，模型。这次的升级主要包含三大核心组件：

大规模精选数据集：构建了含 8500 万条概念平衡预训练数据的数据集 LLaVA-OneVision-1.5-MidTraning，以及经精心整理、含 2200 万条指令数据的数据集 LLaVA-OneVision-1.5-Instruct；
高效训练框架：开发了完整的端到端高效训练框架，采用离线并行数据打包策略，确保可在 1.6 万美元预算内完成 LLaVA-OneVision-1.5 的训练；
最先进性能：实验结果表明，LLaVA-OneVision-1.5 在各类下游任务中均展现出极具竞争力的性能。

LLaVA-OneVision-1.5 的整体架构如上图所示。该模型沿用 LLaVA 系列的 “ViT（视觉 Transformer）-MLP（多层感知机）-LLM（大型语言模型）” 范式，包含三大核心模块：

视觉编码器（Vision Encoder）：视觉编码器负责从输入图像中提取丰富且具有语义意义的视觉表征，为多模态对齐与下游推理奠定基础。与以往采用 SigLIP或 DFN，LLaVA-OneVision-1.5 整合了近期提出的聚类判别模型 RICE-ViT，以提升区域感知视觉能力与光学字符识别（OCR）能力。
投影层（Projector）：投影层通过将视觉嵌入映射至大型语言模型（LLM）的文本嵌入空间，弥合视觉编码器与大型语言模型之间的模态鸿沟。参考 Qwen2.5-VL的设计，首先对空间上相邻的四组图像块特征进行分组，随后将其拼接并输入一个两层多层感知机（MLP），最终映射至大型语言模型的文本嵌入空间。
大型语言模型（Large Language Model）：大型语言模型是该架构的推理与生成核心。在接收投影后的多模态嵌入后，大型语言模型将视觉信息与语言上下文融合，以执行复杂推理、指令跟随与自然语言生成任务。LLaVA-OneVision-1.5 系列模型采用 Qwen3作为语言骨干网络，大幅提升下游任务的性能。

llava系列的具体细节参考：LLaVA系列

VILA

另一个与LLaVA比较类似，但有所补充的工作是英伟达的VILA（不是显卡）。VILA模型的网络结构和LLaVA十分类似，我们不做过多赘述。不同的是VILA通过实验，总结了多模态预训练的一些经验，其中有些经验在相关工作中也有所体现，主要为以下三点：

LLM参与训练更好：在预训练阶段冻结LLM参数，能做到不错的zero-shot的能力，但会损失in-context学习的能力，而LLM参数参与训练的话可以有效缓解；
预训练数据使用图文交替数据更好：图文Pair对并不是最优的选择，图文交错的数据效果更好；

SFT时纯文本数据图文数据混合更好：在图文指令微调训练数据中混入纯文本的指令数据，不仅可以缓解纯文本能力的遗忘，还能提升VL任务的能力。

具体的，如下图，VILA的训练分为3个阶段，视觉编码模块ViT参数均是冻结状态。Step 0 使用图文Pair数据对初始化Projector（图文Adapter）参数，LLM模块参数冻结；Step 1使用图文交替数据全参数预训练；Step 2使用指令微调数据进行全参数微调，其中微调数据混合了图文指令和纯文本指令；

VILA相对各时期的SoTA，在公开评测指标上有不错的效果，如下图。

Gemini

目光来到闭源世界，与VILA同阶段，谷歌公司发布了Gemini系列，又在近期发布了性能更强的Gemini 1.5，可惜被另一个热爱闭源的OpenAI的Sora抢了风头，属实悲催。由于Gemini系列并没有开源，我们只能通过技术报告中的简单介绍来了解其方法。

Gemini 1.0是一个多模态模型，这里模态除了图图像和文还包括音频、视频，符合谷歌多模态大模型一贯的ALL IN ONE的风格，这也是依赖积累丰富的数据资源和算力资源。Gemini 1.0提供Ultra、Pro和Nano版本，分别适应不同能力、参数大小和推理速度要求，最小的Nano甚至可以端上运行。

方法上，Gemini 1.0的网络结构同样是Transformer Decoders，支持32K上下文长度，使用了Multi-Query Attention等优化机制。如图，模型输入可以是文本、音频、视觉输入，输入视觉可以是图片、图表、截图、PDFs或视频等，输出可以是图片和文本（没错，可以生成图片）。视觉的Encoder模块借鉴了谷歌自己的Flamingo、CoCa和PaLI，结合这些模型，可以输入多模态的同时，也可以通过离散的视觉Tokens生成图片或视频等视觉模态。

对于音频模态，Gemini可以直接输入Universal Speech Model (USM)的16kHz特征，具体可以参考USM工作。对于视频理解，Gemini通过将视频编码为长上下文窗口中的一系列帧来实现。视频帧或图像可以与文本或音频自然交织在一起，作为模型输入的一部分。Gemini同时支持不同像素输入的视觉以满足不同粒度的理解任务。

在具体训练数据方面，技术报告同样并没有提过多细节，只是简单说了数据包括什么模态、经过了什么清洗步骤等，我们也不再深究。至于Gemini 1.5，同样是技术报告的形式发布，没有特别多技术细节，主要介绍了模型是如何的强。区别要点包括：模型在Gemini 1.0基础上引入了sparse mixture-of-expert (MoE)，同时强化了上下文长度（32K->10M）同时几乎没有损失上下文感知能力。在训练过程中，Gemini 1.5强化了指令微调过程，使用了用户偏好数据。

总体来说，虽然Gemini没有提供技术细节，但也体现了谷歌对于多模态大模型技术方向的判断，比如我们可以get到网络结构的MoE、一个模型更多模态、超长上下文、文本生成+多模态生成结合等。

Mini-Gemini

TL; DR：本文构建了一个支持 text+image 多模态输入、text+image 多模态输出的真正的多模态大模型 Mini-Gemini。技术方面主要有三个要点：

高效高分辨率的视觉 token 编码，
高质量的数据，
通过 VLM 引导的图像生成。

现有的多模态大模型一般支持文本和图片输入，但支持输出文本回复。像 Gemini / GPT4+DALLE3 那样支持多模态输出的模型不多。本文通过高分辨率的视觉 token，高质量的数据，以及通过 VLM 引导的图像生成三个方面的技术改进，构建一个支持图文输入、图文输出的多模态大模型 Mini-Gemini 系列。整体框架如下图所示。

高分辨率的视觉 token

支持高分辨率图像理解、文档文字图理解，是近来新发布的多模态大模型重点在卷的一个能力。像 LLaVA 1.6 的图片切分方案，Fuyu 的纯 Decoder 方案等都在这方面有所优化。Mini-Gemini 提出了一种新的高分辨率图像理解的优化方案。Mini-Gemini 中使用了 Conv 和 ViT 两种视觉编码器，分别编码高分辨率和低分辨率的图像信息，然后提出一种图像块信息挖掘（patch info mining）的方法，将低分辨率视觉 tokens 作为 Query，高分辨率的视觉 tokens 作为 Key 和 Value，进行交叉注意力操作，再输入到 LLM 中作为视觉 token。

这么做的原因是，低分辨率图像经过 ViT 提取的 tokens 是某个图像块的信息，而高分辨率经过 Conv 提取的特征图也是不同区域的图像特征，如此进行交叉注意力操作，使得每个 query 在其对应的子区域中有较高的注意力值。并且，最终输出的视觉 token 个数也是固定的，不会将高分低分所有的视觉 token 都输入到 LLM 中，计算开销较低。基于这种 dual-encoder + patch info mining 的方案，能够保持图像的细节信息，并且编码过程比较高效。

另外，如果需要更细节的对图像细节的理解，该方法还可以扩展为更高清的版本。具体操作是，在低分编码分支，先将原图长宽各进行两倍上采样并切分，这样最终得到 5 倍于原方案的低分辨率像素数，并最终的视觉 token 数也是 5 倍。

多模态生成

经过上述方案进行高效的高分辨率图像编码后，将视觉 token 和文本 token 拼接并输入到 LLM 中，进行自回归式的生成。不同于大多数仅有文本单模态输出形式的 VLM，Mini-Gemini 还支持图像的生成。现有支持图像生成的多模态大模型，一般是训练模型对齐 LLM 和 Diffusion Model 的文本 embedding，而本文中 Mini-Gemini 则是训练 LLM 理解用户的生图指令，并输出适合 Diffusion Model 生图的 prompt，然后调用现成的 SD 等生图模型，实现图像生成。

高质量数据

高质量的数据，是如今训练 LLM 最重要的因素。

常规的 VLM 数据部分包括文本、多模态的指令数据，文档数据，OCR 数据等。

另一部分很关键的是生图训练数据。Mini-Gemini 的生图方案需要 LLM 能够理解用户的生图意图，并改写、润色出一个适合 SD 模型进行生图的文本 prompt。

如下图所示，这部分训练数据包含两个任务：（a）简单指令 recaption：采用 LAION-GPT-4V 中的 8K 详细描述性图像 caption，并让 GPT-4 反推相应用户的简短图像 caption 输入和适用于 SD 的生图 prompt。 (b) 上下文提示生成：基于 LIMA 和 OpenAssistant2 中的一些高质量的真实对话上下文，生成 prompt 和符合对话上下文的图像，共得到 5K 条指令数据。为了格式化地出发生图，Mini-Gemini 使用特殊 token <GEN> 来标识本轮对话需要调用 SD 进行生图，用特殊 token <h>...</h> 来包裹 LLM 改写出的生图 prompt，送入 SD 中。

Mini-Gemini 通过 LLM 显式地改写出生图 prompt，并外挂 SDXL 进行图像生成，不同于之前直接嫁接 text embedding 的方案，实测效果还不错。更重要的是，生成自然语言生图的 prompt 具有更好的灵活性和可解释性，可以无缝接入其他的生图模型。另外笔者还有一个想法，能否将输入的图片通过 ip-adapter 等方式也作为生图的条件，从而实现定制化生图等。

高分辨率的编码方法来理解图像细节和文字图等，也是一个技术改进，最近很多新发布 VLM 在做类似的工作。

InternVL

InterVL系列发力比QwenVL系列更早，并且一直保持开源的风格。尤其是Qwen1-VL到Qwen2-VL将近一年的空窗期中，InternVL从1.0，1.1，1.2，1.5一直高速迭代，所以，从InternVL身上，我们更能看得出来国内VL社区从BLIP时代到LLM时代的发展路线。简单做个重点梳理（忽略数据改变）：

InternVL 1.0 就是BLIP时代的产物，大家还没有思考清楚对比 & 生成应该如何交融，才能训练出理解能力和生成能力都非常强的VLM，另外就是InternVL团队之前和zhiyuan团队一样，都在押注大视觉模型，因此视觉端还比较重。
InternVL 1.1 和 InternVL 1.2 按照LLaVA的模式，去掉Q-fomer这种重的adapter组建，改为MLP，并且三阶段训练简化为两阶段训练。
InternVL 1.5接入动态分辨率处理
InternVL 2 接入视频输入、医疗图像输入，8B及以下模型舍弃6B的视觉encoder改为300M ViT
InternVL 2.5 引入double数据、使用CoT（原文称作Test-Time Scaling，但是没有RL的Test-Time Scaling都是伪Test-Time Scaling）取得了更好的性能
InternVL 3 集成了可变视觉位置编码（V2PE）、优化多模态预训练方式，并引入了MPO作为后训练从而提高推理性能
InternVL 3.5 加入了视觉分辨率路由器（实现视觉标记的自适应压缩，每个图像块会根据其语义丰富程度被路由到合适的压缩率），并进一步增强了后训练流程，提出级联强化学习渐进式训练（MPO+GSPO）

具体详情参考：InternVL系列

MiniCPM-V

MiniCPM-V 端侧多模态大模型系列可以以端到端方式，接受图像、视频、文本、音频作为输入，并生成高质量文本和语音输出。MiniCPM-o 进一步支持端到端的语音输入输出。自2024年2月以来，我们以实现高性能和高效部署为目标，发布了7个版本的模型。目前系列中最值得关注的模型包括：

MiniCPM-V 4.5：MiniCPM-V 系列中最新、最强大的模型。总参数量 8B，在视觉能力上超越了 GPT-4o-latest、Gemini-2.0 Pro 以及 Qwen2.5-VL 72B，成为开源社区中性能最强的端侧多模态模型。本版本带来了全新特性，包括高效的高帧率与长视频理解（视频 token 压缩率最高可达 96 倍）、可控的快思考/深思考模式、出色的手写体 OCR 与复杂表格/文档解析能力。同时，它进一步强化了 MiniCPM-V 系列广受欢迎的特性，如可靠性、多语言支持与端侧可部署性。
MiniCPM-o 2.6: MiniCPM-o 系列中性能最佳模型。总参数量 8B，视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别，是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中，MiniCPM-o 2.6 支持可配置声音的中英双语语音对话，还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。模型也进一步提升了 MiniCPM-V 2.6 的 OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉 token 密度，MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。

详情查看：MiniCPM-V系列

NVLM

https://research.nvidia.com/labs/adlr/NVLM-1/

NVLM-D: Decoder-only Model: 上图下边结构，图像和文本拼接用LLM做decoder（和常见的VLM结构相同），并加入1-D flattened tile tag: <tile_1>, <tile_2>, · · · , <tile_6>, <tile_global>.
NVLM-X: X-attention Model：上图上边结构，图像和文本在Gated X-Atention做cross attention（类似Flamingo），同样加入1-D flattened tile tag
NVLM-H: Hybrid Model ：融合X和D，只将缩略图和text送入LLM, 同样加入Gated X-Atention，用其他图像tail和self-attention之后的特征做cross Attention

Ovis

https://github.com/AIDC-AI/Ovis/tree/main

整体模型结构如图所示

之前的方法在对齐离散的text特征（对应为一维token embeding）和visual 特征（对应为二维离散特征序列，patches embeding）时，二者的维度不同，所以基本都是采用比较简单的方法去对齐，比如llava就是将视觉特征再通过MLP将其转换为一维的视觉特征序列，再将二者合并后送入LLM进行训练。

Ovis的做法是，将视觉离散化，统一为和文本特征统一的形式，也就是对齐到一个统一的空间再做对齐。具体为，给定一个视觉token $r_i \in \mathbb{R}^d$ (可以理解为通过VIT提取的一个patch特征)，通过

视觉嵌入表（Visual Embedding Table）

每个视觉单词 $w_i $作为一个原型(prototype)，存储在嵌入表中，形式为 $ \{w_i \in \mathbb{R}^d\}_{i=1}^K$，其中$K$为词典的大小，也就代表了视觉词典中包含有$K$个独特的视觉单词，

匹配机制

为了将连续的视觉token $r_i $与嵌入表中的 $K$ 个视觉单词进行匹配，利用内积计算相似度, 内积值越高，表示 $r_i $与该视觉单词的相似度越高。通过Softmax归一化，最终得到的 $v_i $是 $r_i $与所有视觉单词的归一化相似度分布, 即

\[v_i=\mathrm{softmax}(\boldsymbol{W}\mathbf{r_i})\quad\boldsymbol{W}\in\mathbb{R}^{K\times d}\]

通过将视觉token $r_i$ 表示为一个概率分布 $v_i$ ，实现视觉特征与离散视觉词汇之间的对齐。

视觉嵌入向量

进一步，每个视觉单词在嵌入表中对应一个嵌入向量 $ e_k \in \mathbb{R}^{d'} $，其中 $d'$ 是嵌入向量的维度。

为了使视觉token和文本token的嵌入具有兼容的形状，设置视觉嵌入表的维度与文本嵌入表的维度相同。

具体的，给定视觉token $v_i \in \Delta^K$ （一个概率分布），其嵌入向量 $V_i$ 通过视觉嵌入表计算为：

\[V_i = \sum_{k=1}^K v_{i,k} e_k, \quad V_i \in \mathbb{R}^{d'}\]

其中，$v_{i,k}$ 是 $v_i$ 的第 $k $ 个分量，表示视觉token对第 $ k$ 个视觉单词的相关性权重。公式也可以等价地表示为：

\[V_i = \mathbb{E}_{e_k \sim v_i}[e_k]\]

这表明 $V_i$ 是视觉单词嵌入 $e_k$ 的加权期望值，其中权重由概率分布 $ v_i$ 决定。

多义性处理

考虑到视觉patch可能具有多义性，仅将其与一个视觉单词（通过 $\text{argmax} \, v_{i,j}$ 找到的单词）关联可能会忽略丰富的语义信息。

为了解决这个问题，Ovis方法将视觉patch与多个视觉单词同时关联，这些单词由 $v_i$ 的非零元素指示。这些元素表示视觉patch与 $K$ 个视觉单词的相关性。

加权组合

最终的视觉patch嵌入 $V_i$ 是多个视觉单词嵌入的加权组合，权重由 $v_i$ 的值决定。

这种加权平均方式能够捕获视觉patch的丰富语义，同时保持与文本token嵌入过程的相似性。

训练流程和数据

Stage 1：视觉编码器微调与视觉-文本对齐

visual_tokenizer.backbone.layer.-1|visual_tokenizer.head|vte

- 重新初始化：视觉编码器 $g$的最后一个块的参数
- 训练参数：
  - 重新初始化的视觉编码器参数
  - 投影矩阵 $W$
  - 视觉嵌入表 $\{e_k\}^K_{k=1}$
- 训练数据 visual captions： COYO-10M
  - 实际训练脚本训练使用的数据： pixelprose-14m|wikipedia-348k|ocr-469k
- 训练样本格式：输入为"<image>'s caption: "，标签为图像的实际描述文本
Stage2：视觉理解能力增强

visual_tokenizer|vte

- 训练参数：
  - 投影矩阵 $W$
  - 视觉嵌入表 $\{e_k\}^K_{k=1}$
  - 视觉编码器 $g$ 的所有参数
- 训练数据 visual description： ShareGPT4V-Pretrain等由描述图像的对话的训练样本组成
  - 实际训练脚本训练使用的数据: allava-caption-laion-4v-469k|allava-caption-vflan-4v-195k|cc12m-description-387k
Stage3：多模态指令学习
- 训练参数：模型的所有参数
- 训练目标：使 Ovis 具备遵循多模态指令的能力
- 训练数据：LLaVA-Finetune 等多模态指令数据集

这种渐进式训练策略先让模型学习基本的视觉-文本对齐能力，然后增强其视觉理解能力，最后教会它遵循多模态指令，从而构建一个全面的多模态 AI 系统下面是文章给出的训练数据表

可以看出这里跟其他模型不同的点是这里第一个阶段用了大量数据来训练这个视觉嵌入表

整体模型训练的参数如下：

Ross

https://haochen-wang409.github.io/ross/

ROSS (Reconstructive Visual Instruction Tuning) 是一种新型的大规模多模态模型训练方法。它的核心思想是通过重建输入图像的方式来提供视觉监督信号，从而增强模型的视觉理解能力。

传统多模态模型的条件因果分布可表示为：

\[p_\Theta(x) = \prod_{i=1}^T p_\Theta(x_i|x_{<i}, v)，v = H_\phi \circ G_\xi(I)\]

其中：

$x_i$ 表示第 $i$ 个 text token
$\Theta = \{\theta, \xi, \phi\}$ 表示模型参数
$v \in R^{N×D}$ 表示投影后的视觉token
$N$是视觉token数量
$D$是特征通道数

传统的视觉指令调整方法仅监督文本输出，对应的训练目标为：

\[L_{LMM}^{text}(\Theta = \{\theta, \xi, \phi\}, x, I) = -\frac{1}{T-N}\sum_{i=N+1}^T \log p_\Theta(x_i|x_{<i}, v)\]

Ross整体的模型结构如下图所示

Ross的总体理念是在视觉输出 $x_{i≤N}$ 上构建重建性视觉监督信号。训练目标包括

上图右侧所示的 $x_{i>N}$ 的原始下一步预测
上图左侧的另一个重建项，即 $L_{Ross} = L_{LMM}^{text} +L_{LMM}^{visual}$。
具体而言，对于视觉部分可以是 $x_{i\leq N}$ 和图像 $I$ 的特定重建目标之间的任何自定义测量值：

具体而言，对于视觉部分可以是 $x_{i\leq N}$ 和图像 $I$ 的特定重建目标之间的任何自定义测量值：

\[L_{LMM}^{visual}(\Theta = \{\theta, \xi, \phi, \pi\}, x, I) = \mathcal{M}(\mathcal{J}\pi(x{i\leq N}), \mathcal{F}(I))\]

其中：

$\mathcal{J}_\pi$ 是投影层，将视觉token映射到教师 tokenizer 空间
$F$是教师 tokenizer
$M$是度量函数

针对 $\mathcal{F}$ 和 $\mathcal{M}$, 文章尝试和总结了一些方法，我们一步一步来看。

$\text{ROSS}^R$ (回归式重建视觉指令)

$\text{ROSS}^R$ (Regressing as Reconstructive Visual Instruction) 提供了三种变体：

1. 直接像素回归 $\text{ROSS}^R$-Pixel:
  - 如上图 (a)，$\mathcal{F}$为patchify operation（比如ViT）将图像 $I \in H\times W \times 3$转换为一系列2D的patch $I_p \in R^{N×(3P^2)}$，其中， $P$是每个图像patch的分辨率，$N = HW/P²$是patch数量
  - $\mathcal{J}_\pi$可以选择简单的MLP，将视觉输出维度从 $D$映射到 $3P^2$
  - $\mathcal{M}$使用MSE作为度量函数
  - 视觉信号存在严重的空间冗余，直接回归原始RGB值可能不是为LMM提供有效监督的最佳方式，相比之下，重建潜在表示会是一个更好的选择。
2. 回归潜在表示 $\text{ROSS}^R$-Latent
  - 如上图 (b)，$\mathcal{F}$可以是判别任务训练的模型（如DINOv2、DEIT-III）或重建任务训练的模型（如VQGAN、VAE）的编码器部分.
  - $\mathcal{M}$是余弦相似度
  - 回归 latent token
3. 通过解码回归RGB值 $\text{ROSS}^R$-Latent2Pixel
  - 使用解码器将预测的潜在表示 $\hat{z}$投影到RGB像素空间
  - $\mathcal{F}^{-1}$是VQGAN或VAE的解码器部分
  - $\mathcal{M}$是像素空间上的MSE损失

$\text{ROSS}^D$(去噪式重建视觉指令)

如上图所示，$\text{ROSS}^D$ 采用扩散模型的去噪目标，以高级视觉输出 $x_{i\leq N}$ 作为条件，从噪声潜在表示 $z_t$ 恢复干净的细粒度表示 $z_0$。

训练过程遵循扩散过程：

\[L^{visual}{LMM}(\Theta = \{\theta, \xi, \phi, \pi\}, x, I) = E{t,\epsilon}\left[\|J_\pi(z_t; x_{i\leq N}, t) - \epsilon\|^2\right]\]

去噪器 $\mathcal{J}_\pi$ 实际上是估计条件期望 $E[\epsilon \sim N(0, I)|z_t]$。

具体的结构为 Transformer编码器块的堆叠，每个块包含三个额外的投影层，用于条件 $x_{i\leq N}$、输入噪声 $z_t$ 和时间步 $t$。

默认采用 stable diffusion 中的带KL正则化的连续VAE作为 $\mathcal{F}$（代码中使用了Flux.1 中的VAE），因为它能够以低rFID重建输入图像，预期保留输入图像的许多低级细节。

具体模型评估

具体的训练参数

GLaMM

这篇论文主要建立图像中各个object和词之间的联系关系，主要贡献在于如何构建这种带关系数据的pipeline。

可以参考：GLaMM

DeepSeek VL

这里简单介绍下 deepseek-vl2

具体的模型结构如下图所示：

基于Llava的结构，增加了一些改进：

增加多分辨率

处理流程整体也和llava-onevision中的流程相似：

1. 仅使用siglip作为视觉encoder
2. 定义一个候选分辨率集合：$C_R = \{(m · 384, n · 384) | m ∈ N, n ∈ N, 1 ≤ m, n, mn ≤ 9\}$, $m,n$是对应的纵横比
3. 选择目标分辨率：选择 $(m_i\cdot 384,n_i\cdot 384 )$作为目标分辨率，使得 padding的区域最小
4. Resize: 首先调整原始图像的大小，直到其长边与目标分辨率匹配，然后在保持原始纵横比的同时padding另一个维度。
5. 加上原始图像的缩略图，一共可以得到 $(m_i\cdot n_i+1)$个小图，将每个小图扔进SigLIP中得到对应的embedding（每个小图对应得到1152维度的特征）

Vision-Language Adaptor: 这里主要增加了一些特殊的token来区分上面的划分，在上图中也有体现：
- 首先会通过一个 $2\times 2$的 pixel shuffle操作将token数由 $27\times 27$变为 $14\times 14$
- 在tiles的每行的末尾都会增加一个<tile_newline>
- 在local和glob图之间会额外增加一个<view_separator>
- 最终的token数量为：$14\times 15 + 1 + m_i\cdot 14\times(n_i\cdot 14 +1)$
- 模型结构为一个两层的MLP
带有MLA的DeepSeek MoE结构作为语言模型，结构如下表

MiMo-VL

https://github.com/XiaomiMiMo/MiMo-VL

整体的结构和LLaVA比较像，使用Qwen2.5的视觉encoder，语言模型选择了MiMo-7B-Base

整体比较简单，除了数据上的改变外，整合了一套混合式on-policy 的强化学习（MORL）框架，该框架将强化学习与在RLHF中的可验证奖励强化模型 Reinforcement Learning with Verifiable Rewards（RLVR）无缝整合。这里就不赘述了，详情参见：MiMo-VL

#

!

VLM模型概述