知识库 - Orange

Focal Loss的一些列改进

Computer Vision

2026-04-09

Focal Loss 在早期的目标检测中，最头疼的问题是正负样本极度不平衡（背景太多，物体太少），且大量背景是“容易分类的负样本”。传统的交叉熵损失（BCE）会被这些海量的简单样本淹没。为了解决这个问题，Focal Loss (FL) 引入了一个动态缩放因子：对于正样本，损失大致为： \(-(1-p)^\gamma \log(p)\) 核心逻辑：如果模型已经预测得很准了（概率 \(p\) 接近 \(1\) ），那么 \((1−p)^\gamma\) 就会趋近于 \(0\) ，从而降低简单样本的权重，强迫模型去关注那些还没学好的“困难样本”。 focal loss 形式如下 \[\text{FL}(p,y) = \begin{cases} -\alpha(1-p)^\gamma log(p) & y = 1 \\ -(1-\alpha)p^\gamma log(1-p) & y=0 \end{cases}\tag{1}\] 详情参考： Focal Loss & RetinaNet GFL(Generalized Focal Loss) 论文地址：...

#Object Detection #CV

READ

DETR

Computer Vision

2026-04-08

原理分析网络架构本文的任务是Object detection，用到的工具是Transformers，特点是End-to-end。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他的baseline。DETR第一个使用End to End的方式解决检测问题，解决的方法是把检测问题视作是一个set prediction problem，如下图所示。...

#CV #transformer #Object Detection

READ

Self-Supervised Learning 概述

Self-Supervised

2026-04-02

the machine predicts any parts of its input for any observed part 这是LeCun在AAAI 2020上对自监督学习的定义，再结合传统的自监督学习定义，可以总结如下两点特征：通过“半自动”过程从数据本身获取“标签”；从“其他部分”预测部分数据。个人理解，其实任意挖掘对象之间联系、探索不同对象共同本质的方法，都或多或少算是自监督学习的思想。自监督学习与无监督学习的区别主要在于，无监督学习专注于检测特定的数据模式，如聚类、社区发现或异常检测，而自监督学习的目标是恢复（recovering），仍处于监督学习的范式中。上图展示了三者之间的区别，自监督中的“related information” 可以来自其他模态、输入的其他部分以及输入的不同形式。 Self-Supervised...

#Self-Supervised #Autoregressive

READ

自回归生成模型（Autoregressive Models）

Generative Model

2026-04-02

研究对象与基本设定我们希望学习一个能够“生成数据”的概率模型。假设我们有一个数据集 \(D\) ，每个样本是 \(n\) 维二值向量： \(x \in \{0,1\}^n\) 我们的目标是用一个参数化分布 \(p_\theta(x)\) 去逼近真实数据分布 \(p_{\text{data}}(x)\) ，并最终能够：密度估计：给定 \(x\) 计算 \(p_\theta(x)\) 或 \(\log p_\theta(x)\) 采样生成：从 \(p_\theta(x)\) 采样得到新的 \(x\) 给定一个具体的任务，如MNIST中的手写数字二值图分类，从Generative的角度进行Represent，并在Inference中Learning. 下面先介绍：描述如何对这个MINST任务建模 \(p(X,Y)\) （Representation）对MNIST任务建模对于一张pixel为 \(28\times28\) 大小的图片，令 \(x_1\) 表示第一个pixel的随机变量， \(x_1\in\{0,1\}\) ，需明确：任务目标：学习一个模型分布...

#Generating Model #Autoregressive

READ

从GRPO到GSPO、DAPO

Reinforcement Learning

2026-03-31

回顾 PPO \[\begin{equation}\begin{aligned}\mathcal{J}_{\text{PPO}}(\theta) &= \mathbb{E}_{(q,a)\sim\mathcal{D}, o_{<t}\sim\pi_{\theta_{\text{old}}}(\cdot|q)} \\ &\left[ \min \left( \frac{\pi_\theta(o_t \mid q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t \mid q, o_{<t})} \hat{A}_t, \text{clip}\left(\frac{\pi_\theta(o_t \mid q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t \mid q, o_{<t})}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_t \right) \right]\end{aligned}\tag{1}\end{equation}\] 其中 \((q, a)\) 是数据集...

#Large Model #Reinforcement Learning

READ

QwenVL 系列

Large Model

2026-03-18

Qwen-VL 模型框架 Qwen-VL的整体网络架构由三个组件组成： LLM：使用 Qwen-7B 的预训练权重进行初始化。视觉编码器：Qwen-VL 的可视化编码器使用ViT 架构，使用 Openclip 的 ViT-bigG 的预训练权重进行初始化。在训练和推理过程中，输入图像的大小都会调整为特定分辨率。视觉编码器通过以 14 步幅将图像分割成块来处理图像，生成一组图像特征。位置感知视觉语言适配器：为了缓解长图像特征序列带来的效率问题，Qwen-VL 引入了一种视觉语言适配器来压缩图像特征。类似QFormer，该适配器包括一个随机初始化的单层交叉注意力模块。使用一组可训练向量（嵌入）作为query，并将视觉编码器中的图像特征作为交叉注意力作的key。该机制将视觉特征序列压缩到固定长度 256。图像输入图像不会直接以像素形式喂给语言模型（LLM）。典型流程是： Visual Encoder ：把图片编码成一串视觉特征（embedding/feature sequence）。 Adapter ：把视觉特征映射到语言模型可接入的表征空间/维度。最终得到：...

#Large Model #VLM

READ

投机采样之EAGLE

Large Model

2026-03-12

概述 MTP（Multi-token Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1-token的生成，转变成multi-token的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个token，实现成倍的加速来提升推理性能。侧重训练时提高效率。比如论文“Better & Faster Large Language Models via Multi-token...

#Acceleration #Large Model

READ

Structured Generation

Large Model

2026-03-10

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有：数据处理。主要功能为a -> b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； Agent 。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor ，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行structured generation的流程如下：定义schema，包括结构、注释还有例子； Kor用特定的 prompt template ，将用户提供的schema和待处理的raw text，组装成prompt；将prompt发送给LLM，借助其通用的In...

#Acceleration #Large Model #LLM

READ

Kimi

Large Model

2026-03-10

k1.5—CoT强化训练概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 \(D = \{(x_i, y^*_i)\}_{i=1}^n\) ，其中包含问题 \(x_i\) 和对应的真实答案 \(y^*_i\) ，目标是训练一个策略模型 \(\pi_\theta\) 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 \(z = (z_1, z_2, ..., z_m)\) 来连接问题 \(x\) 和答案 \(y\) ，每个 \(z_i\) 是解决问题的重要中间步骤。当解决问题 \(x\) 时，思维 \(z_t \sim \pi_\theta(\cdot|x, z_1, ..., z_{t-1})\) 被自回归采样，最终答案 \(y \sim \pi_\theta(\cdot|x, z_1, ..., z_m)\) 。强化学习目标基于真实答案 \(y^*\) ，分配一个值 \(r(x, y, y^*)...

#Policy Gradient #Large Model #LLM #Reinforcement Learning

READ

DeepSpeed

Large Model

2026-03-09

背景：大模型 vs. GPU Memory 大模型最大的特点是模型参数多，训练时需要很大的GPU显存。举个例子，帮助大家的理解：对于一个常见的7B规模参数的大模型（如LLaMA-2 7B），基于16-bit混合精度训练时，在仅考虑模型参数、梯度、优化器情况下，显存占用就有112GB，显然目前A100、H100这样主流的显卡单张是放不下的，更别提国内中小厂喜欢用的A6000/5000、甚至消费级显卡。上面的例子中，参数占GPU 显存近 14GB（每个参数2字节）。再考虑到训练时梯度的存储占14GB（每个参数对应一个梯度，也是2字节）、优化器Optimizer假设是用目前主流的AdamW则是84GB（每个参数对应一个参数的copy、一个momentum和一个variance，这三个都是float32），合计112GB。这种情况，Torch中支持的大家熟悉的数据并行 DataParallel 是解决不了的。因为数据并行的前提是每个GPU可以host完整的模型。需要用到模型并行和流水线并行。下面对着三种方法做一个简单介绍。三种模型训练的并行方案数据并行（Data...

#Acceleration #Large Model

READ

Flash-Attention

Large Model

2026-03-09

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 Self-Atention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 \(\frac{1}{\sqrt{D}}\) ）： \[O = \text{softmax}(QK^T)V\] 其中： \(Q, K, V, O\) 都是形状为 \((L, D)\) 的二维矩阵 \(L\) 是序列长度 \(D\) 是每个头的维度（头维度） softmax应用于最后一个维度（列）标准计算流程，传统方法将自注意力计算分解为几个阶段：...

#Large Model #Acceleration

READ

Data Packing

Large Model

2026-03-09

简介在深度学习模型（尤其是 Transformer 架构）的训练中，输入数据的长度通常需要保持一致。如果直接输入大量短文本，就需要用大量无意义的占位符（Padding）来补齐长度，这会极大地浪费 GPU 的计算资源。为了最大化计算效率，目前基本主流的训练框架里都会加入数据打包（Data Packing）的逻辑，本文以 lmms-engine 中的操作为例，具体查看实际训练时对数据packing操作以及 use_rmpad 消除所有padding计算的逻辑 Packing Dataset 如下 Dataset 代码所示，这段代码核心目标是：在不超过预设最大长度（ packing_length ）的前提下，尽可能多地将短样本塞进同一个批次（Batch）中。这种做法带来了两个显著的好处：提升计算效率：减少了 Padding Token 的数量，让 GPU 的每一次矩阵乘法都作用在真实有效的数据上。稳定训练过程：每个 Batch 的有效 Token 数量更加一致，有助于梯度的稳定 if self.config.packing: # Reset index at...

#Large Model

READ

#

!

INCOMING TRANSMISSION

Focal Loss的一些列改进

DETR

Self-Supervised Learning 概述

自回归生成模型（Autoregressive Models）

从GRPO到GSPO、DAPO

QwenVL 系列

投机采样之EAGLE

Structured Generation

Kimi

DeepSpeed

Flash-Attention

Data Packing