知识库 - Orange

多模态思路之无损输入

Large Model

2026-03-10

问题背景首先简化一下问题，本文所讨论的多模态，主要指图文混合的双模态，即输入和输出都可以是图文。可能有不少读者的第一感觉是：多模态模型难道不也是烧钱堆显卡，Transformer“一把梭”，最终“大力出奇迹”吗？其实没那么简单。先看文本生成，事实上文本生成自始至终都只有一条主流路线，那就是语言模型，即建模条件概率 \(p(x_t|x_1,\cdots,x_{t-1})\) ，不论是最初的 n-gram语言模型，还是后来的Seq2Seq、GPT，都是这个条件概率的近似。也就是说，一直以来，人们对“实现文本生成需要往哪个方向走”是很明确的，只是背后所用的模型有所不同，比如LSTM、CNN、Attention乃至最近复兴的线性RNN等。所以，文本生成确实可以All in Transformer来大力出奇迹，因为方向是标准的、清晰的。然而，对于图像生成，并没有这样的“标准方向”。就本站所讨论过的图像生成模型，就有 VAE 、 GAN 、 Flow 、 Diffusion ，还有小众的 EBM...

#diffusion #Generating Model #VLM

READ

混合精度训练

Large Model

2026-03-10

通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。浮点数据类型浮点数据类型主要分为双精度（FP64）、单精度（FP32）、半精度（FP16）。在神经网络模型的训练过程中，一般默认采用单精度（FP32）浮点数据类型，来表示网络模型权重和其他参数。在了解混合精度训练之前，这里简单了解浮点数据类型。根据IEEE二进制浮点数算术标准（IEEE 754）的定义，浮点数据类型分为双精度（FP64）、单精度（FP32）、半精度（FP16）三种，其中每一种都有三个不同的位来表示。 FP64表示采用8个字节共64位，来进行的编码存储的一种数据类型； FP32表示采用4个字节共32位来表示； FP16则是采用2字节共16位来表示。如图所示：从图中可以看出，与FP32相比，FP16的存储空间是FP32的一半，FP32则是FP16的一半。主要分为三个部分：...

#Acceleration

READ

DeepSpeed

Large Model

2026-03-09

背景：大模型 vs. GPU Memory 大模型最大的特点是模型参数多，训练时需要很大的GPU显存。举个例子，帮助大家的理解：对于一个常见的7B规模参数的大模型（如LLaMA-2 7B），基于16-bit混合精度训练时，在仅考虑模型参数、梯度、优化器情况下，显存占用就有112GB，显然目前A100、H100这样主流的显卡单张是放不下的，更别提国内中小厂喜欢用的A6000/5000、甚至消费级显卡。上面的例子中，参数占GPU 显存近 14GB（每个参数2字节）。再考虑到训练时梯度的存储占14GB（每个参数对应一个梯度，也是2字节）、优化器Optimizer假设是用目前主流的AdamW则是84GB（每个参数对应一个参数的copy、一个momentum和一个variance，这三个都是float32），合计112GB。这种情况，Torch中支持的大家熟悉的数据并行 DataParallel 是解决不了的。因为数据并行的前提是每个GPU可以host完整的模型。需要用到模型并行和流水线并行。下面对着三种方法做一个简单介绍。三种模型训练的并行方案数据并行（Data...

#Large Model #Acceleration

READ

Flash-Attention

Large Model

2026-03-09

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 Self-Atention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 \(\frac{1}{\sqrt{D}}\) ）： \[O = \text{softmax}(QK^T)V\] 其中： \(Q, K, V, O\) 都是形状为 \((L, D)\) 的二维矩阵 \(L\) 是序列长度 \(D\) 是每个头的维度（头维度） softmax应用于最后一个维度（列）标准计算流程，传统方法将自注意力计算分解为几个阶段：...

#Large Model #Acceleration

READ

DeepSeek OCR

Large Model

2026-03-06

DeeSeek-OCR 简介当前的大型语言模型（LLMs）在处理长文本时面临显著的计算挑战，其开销随序列长度呈二次增长。本文探索一种潜在的解决方案：将视觉模态作为高效的文本信息压缩媒介。单张包含文档文本的图像，能够用显著更少的 token 表达丰富信息，相比等量的数字文本更为紧凑；这表明，通过视觉 token 进行光学压缩有望实现更高的压缩比。本文关注视觉编码器如何提升 LLM 在处理文本信息时的效率，而非人类本就擅长的基础 VQA 任务当前主流 VLM 视觉编码器的问题第一类是以 Vary 为代表的双塔（dual-tower）架构，通过并行的 SAM 编码器来提升高分辨率图像处理时的视觉词表参数规模。该方法虽然在参数量与激活内存上更可控，但也存在显著缺点：需要对图像进行两套预处理，增加了部署复杂度；同时在训练中使编码器管线的并行化变得困难。第二类是以 InternVL2.0 为代表的切片（tile-based）方法，通过将图像划分为小块并行处理，在高分辨率场景下降低激活内存。尽管这种方法能够处理极高分辨率，但由于其原生编码器分辨率通常较低（低于...

#VLM #LLM #Large Model

READ

VLM模型概述

Large Model

2026-03-04

Qwen-VL系列 Qwen-VL 阿里巴巴的Qwen-VL是另一个比较经典的模型，十分值得作为案例介绍多模态大模型的训练要点。Qwen-VL使用Qwen-7B LLM作为语言模型基座，Openclip预训练的ViT-bigG作为视觉特征Encoder，随机初始化的单层Cross-Attention模块作为视觉和自然语言的的Adapter，总参数大小约9.6B。如下图，Qwen-VL的训练过程分为三个阶段： Stage1 为预训练，目标是使用大量的图文Pair对数据对齐视觉模块和LLM的特征，这个阶段冻结LLM模块的参数； Stage2 为多任务预训练，使用更高质量的图文多任务数据（主要来源自开源VL任务，部分自建数据集），更高的图片像素输入，全参数训练； Stage3 为指令微调阶段，这个阶段冻结视觉Encoder模块，使用的数据主要来自大模型Self-Instruction方式自动生成，目标是提升模型的指令遵循和多轮对话能力。...

#VLM

READ

LLaVA系列

Large Model

2026-03-04

项目： https://llava-vl.github.io/ github: https://github.com/haotian-liu/LLaVA 一句话优点：极大简化了VLM的训练方式：Pre-training + Instruction Tuning 训练量得到简化：1M量级数据+ 8卡A100 → 一天完成训练 LLaVA LLaVA是2023的连续工作，包含了LLaVA 1.0, 1.5, 1.6几个版本（后续会有更多），也是2023年多模态领域妥妥的顶流。发表9个月620的stars，GitHub超过12K的stars。 LLaVA它的网络结构简单、微调成本比较低，任何研究组、企业甚至个人都可以基于它构建自己的领域的多模态模型。非常建议对多模态大模型感兴趣的朋友关注LLaVA这篇工作。简介...

#VLM

READ

Online Action Detection

3D Model

2026-02-13

Temporal action detection可以分为两种setting，一是offline的，在检测时视频是完整可得的，也就是可以利用完整的视频检测动作发生的时间区间（开始时间+结束时间）以及动作的类别; 二是 online的，即处理的是一个视频流，需要在线的检测（or 预测未来）发生的动作类别，但无法知道检测时间点之后的内容。online的问题设定更符合surveillance的需求，需要做实时的检测或者预警；offline的设定更符合视频搜索的需求，比如youtube可能用到的 highlight detection / preview generation。问题演化 Early action detection -> Online action detection -> Online action anticipation：在学术界关注online action detection之前，有一个相似的问题叫做 early event detection ，问题定义是 “detect the event as soon as possible, after it...

#video

READ

Video Model 概述

3D Model

2026-02-12

Classification，Detection Classification：给定预先裁剪好的视频片段，预测其所属的行为类别 Detection：视频是未经过裁剪的，需要先进行人的检测where和行为定位（分析行为的始末时间）when，再进行行为的分类what。通常所说的行为识别更偏向于对时域预先分割好的序列进行行为动作的分类，即 Trimmed Video Action Classification。 Two-Stream Two-stream convolutional networks 简介 Two-Stream CNN网络顾名思义分为两个部分，空间流处理 RGB图像，得到形状信息; 时间流/光流处理光流图像，得到运动信息。两个流最后经过softmax后，做分类分数的融合，可以采用平均法或者是SVM。不过这两个流都是二维卷积操作。最终联合训练，并分类。如图所示，其实做法非常的简单，相当于训练两个CNN的分类器。一个是专门对于 RGB 图的，一个专门对于光流图的，然后将两者的结果进行一个 fushion 的过程。...

#video

READ

KLT 光流算法详解

3D Model

2026-02-12

光流（Optical Flow）是物体在三维空间中的运动（运动场）在二维图像平面上的投影，由物体与相机的相对速度产生，反映了微小时间内物体对应的图像像素的运动方向和速度。 KLT 是基于光流原理的一种特征点跟踪算法，本文首先介绍光流原理，然后介绍 KLT 及相关 KLT 变种算法。 Optical Flow 光流法假设：亮度恒定，图像中物体的像素亮度在连续帧之间不会发生变化；短距离(短时)运动，相邻帧之间的时间足够短，物体运动较小；空间一致性，相邻像素具有相似的运动；记 \(I(x,y,t)\) 为 \(t\) 时刻像素点 \((x,y)\) 的像素值，那么根据前两个假设，可得到： \[I(x,y,t)=I(x+dx,y+dy,t+dt)\] 一阶泰勒展开： \[I(x+dx,y+dy,t+dt)=I(x,y,t)+\frac{\partial I}{\partial x}dx+\frac{\partial I}{\partial y}dy+\frac{\partial I}{\partial t}dt\] 由此可得： \[\frac{\partial I}{\partial...

#video

READ

MiMo-VL

Large Model

2026-01-26

概述小米团队近日发布了MIMO-VL-7B-SFT和MIMO-VL-7B-RL，这是两个强大的视觉语言模型，MIMO-VL-7B-RL在40个评估任务中的35个上优于QWEN2.5-VL-7B，对于GUI Grounding任务，它在OSWorld-G上设置了一个新标准，甚至超过了UI-TARS等专业模型。模型通过四个阶段的预训练（2.4T Token）与Mixed On-policy 强化（MORL）整合了多样化的奖励信号。在文章中，作者提到了两个重要的发现：从Pre-Traing 训练阶段中加入高质量且覆盖广的推理数据对于强化模型性能至关重要。 Mixed On-policy 强化学习进一步增强了模型的性能，同时实现了稳定的同时改进仍然在性能方面具有挑战性。 Pre-Training 模型结构整个模型还是采用了VIT-MLP-LLM的结构，具体来说，视觉模型采用了Qwen2.5-VL中的视觉encoder，LLM采用了自家的语言模型MiMo-7B-Base。整个Pretraining采用了四个阶段的训练，每个阶段采用的数据，模型训练参数和模型参数如下面两表所示...

#VLM #Large Model

READ

GLaMM

Large Model

2026-01-26

简介该工作建立了一个 GCG（Grounded Conversation Generation ）的数据集和对应多模态大模型，与之前的工作主要的区别在于针对输入图像，可以生成grounding pixel-level理解的语言对话，如下图示例所示： Model Automated Dataset Annotation Pipeline level 1: Object locatlization and attributes 1. Landmark Categorization 基于 LLaVA 模型对图像做场景的分类，包含主要场景和细粒度场景。就是对数据集整体做一个大的类别标签和子类别标签，做场景的划分 def get_main_prompt(model, conv_mode="llava_v1"): options = ["Indoor scene", "Outdoor scene", "Transportation scene", "Sports and recreation scene"] qs = (f"Categorize the image...

#VLM

READ

#

!

INCOMING TRANSMISSION

多模态思路之无损输入

混合精度训练

DeepSpeed

Flash-Attention

DeepSeek OCR

VLM模型概述

LLaVA系列

Online Action Detection

Video Model 概述

KLT 光流算法详解

MiMo-VL

GLaMM