知识库 - Orange

Packing & rmpad

Large Model

2026-01-11

简介基于lmmsengine中的训练时对数据packing操作以及use_rmpad消除了所有padding计算的逻辑 Packing 总体逻辑基于packing_length 将不同的数据填充到一个sequence中，具体来说在Datsset中，如下代码所示，将不同的数据append到buffer列表中 [代码] 在 Collator 组合成batch的形式传入到模型的输入，这里还是将数据padding [代码] rmpad 项目中，是以 monkey patch的形式（也就是打热补丁）替换rmpad操作的，如下代码所示，主要就是替换模型中的forward操作 [代码] Qwen3VLModel.forward 显式调用了 _unpad_input。它计算了非 padding 元...

#Large Model

READ

DDP

Python

2026-01-11

Quick Start 一个最简单的DDP Pytorch例子！环境准备 PyTorch(gpu)=1.5，python=3.6 推荐使用官方打好的PyTorch docker，避免乱七八糟的环境问题影响心情。 [代码] 代码单GPU代码 [代码] 加入DDP的代码 [代码] DDP的基本原理大白话原理假如我们有N张显卡， 1. （缓解GIL限制）在DDP模式下，会有N个进程被启动，每个进程在一张卡上加载一个模型，这些模型的参数在数值上是相同的。 1. （RingReduce加速）在模型训练时，各个进程通过一种叫RingReduce的方法与其他进程通讯，交换各自的梯度，从而获得所有进程的梯度； 1. （实际上就是Data Parallelism）各个进程用平均后的梯度更新自己的参数，...

#pytorch

READ

Tensorflow-@tf_export

Python

2026-01-11

@tf_export为函数取了个名字！ Tensorflow经常看到定义的函数前面加了@tf_export。例如，tensorflow/python/platform/app.py中有： [代码] 首先，@tf_export是一个修饰符。修饰符的本质是一个函数 tf_export的实现在tensorflow/python/util/tf_export.py中： [代码] 等号的右边的理解分两步： 1. functools.partial 1. api_export functools.partial是偏函数,它的本质简而言之是为函数固定某些参数。如：functools.partial(FuncA, p1)的作用是把函数FuncA的第一个参数固定为p1；又如functools.partial(...

#pytorch

READ

随机近似（Stochastic Approximation）

Deep Learning

2026-01-11

引言与背景随机逼近（Stochastic Approximation）是一类用于求解寻根或优化问题的随机迭代算法，其特点是不需要知道目标函数或其导数的表达式。随机逼近的核心优势在于：能够处理带有随机噪声的观测数据不需要目标函数的解析表达式可以在线学习，每获得一个新样本就更新估计值均值估计问题考虑一个随机变量 X ，其取值来自有限集合 [Math] 。我们的目标是估计 E[X] 。假设我们有一个独立同分布的样本序列 \{x_i\}_{i=1}^n ，那么 X 的期望值可以近似为： [公式] 非增量方法与增量方法非增量方法：先收集所有样本，然后计算平均值。缺点是如果样本数量很大，可能需要等待很长时间。增量方法：定义 [公式] 可以推导出递归公式： [公式] 这个算法可以增量式地...

#DL基础 #Reinforcement Learning

READ

Flash-Attention

Large Model

2026-01-11

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 SelfAtention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 [Math] ）： [公式] 其中： Q, K, V, O 都是形...

#Large Model #Acceleration

READ

Autograd

Python

2026-01-11

PyTorch中，所有神经网络的核心是 autograd 包。 autograd 包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义(definebyrun）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的. 让我们用一些简单的例子来看看吧。张量 torch.Tensor 是这个包的核心类。如果设置它的属性 .requires_grad 为 True，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用 .backward()，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到.grad属性. 要阻止一个张量被跟踪历史，可以调用 .detach() 方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。为了防止跟踪历史记录(和使用内存），...

#pytorch

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#DL基础 #CNN

READ

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#VLM #Reinforcement Learning #Large Model

READ

DeepSpeed

Large Model

2026-01-11

背景：大模型 vs. GPU Memory 大模型最大的特点是模型参数多，训练时需要很大的GPU显存。举个例子，帮助大家的理解：对于一个常见的7B规模参数的大模型（如LLaMA-2 7B），基于16-bit混合精度训练时，在仅考虑模型参数、梯度、优化器情况下，显存占用就有112GB，显然目前A100、H100这样主流的显卡单张是放不下的，更别提国内中小厂喜欢用的A6000/5000、甚至消费级显卡。上面的例子中，参数占GPU 显存近 14GB（每个参数2字节）。再考虑到训练时梯度的存储占14GB（每个参数对应一个梯度，也是2字节）、优化器Optimizer假设是用目前主流的AdamW则是8...

#Large Model

READ

优化器系列

Deep Learning

2026-01-11

AdamW目前是大语言模型训练的默认优化器，而大部分资料对Adam跟AdamW区别的介绍都不是很明确，在此梳理一下Adam与AdamW的计算流程，明确一下二者的区别。 TLDR：AdamW将优化过程中使用的针对网络权重的衰减项（或者叫正则项）从loss中单独拿了出来，不参与Adam中一二阶动量的计算。下面是二者的详细对比： Adam 首先是Adam，给定在迭代步数 t 时模型的参数 [Math] 与梯度 g_t ，Adam的计算公式如下： [公式] 式(1)用于计算梯度的一阶指数滑动平均式(2)用于计算梯度的二阶项的指数滑动平均式(3)与(4)对计算得到的指数滑动平均值进行消偏式(5)为Adam的更新公式，其可以拆成两部分理解：动量更新与自适应学习率。 AdamW AdamW 相对与...

#DL基础

READ

nn 与 nn.functional

Python

2026-01-11

相同点 nn.Xxx和nn.functional.xxx的实际功能是相同的，即nn.Conv2d和nn.functional.conv2d 都是进行卷积，nn.Dropout 和nn.functional.dropout都是进行dropout，。。。。。；运行效率也是近乎相同。 nn.functional.xxx是函数接口，而nn.Xxx是nn.functional.xxx的类封装，并且nn.Xxx都继承于一个共同祖先nn.Module。这一点导致nn.Xxx除了具有nn.functional.xxx功能之外，内部附带了nn.Module相关的属性和方法，例如train(), eval(),load_state_dict, state_dict 等。不同点两者的调用方式不同。 nn.X...

#pytorch

READ

#

!

INCOMING TRANSMISSION

Packing & rmpad

DDP

Tensorflow-@tf_export

随机近似（Stochastic Approximation）

Flash-Attention

Autograd

上采样、反卷积与上池化

Kimi-VL

DeepSpeed

优化器系列

nn 与 nn.functional