知识库 - Orange

单调队列

Algorithm

2026-01-21

129. 滑动窗口最大值题目给你一个整数数组 nums ，有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。示例 1：输入：nums = [1,3,-1,-3,5,3,6,7], k = 3 输出：[3,3,5,5,6,7] 解释：滑动窗口的位置最大值 --------------- ----- [1 3 -1] -3 5 3 6 7 3 1 [3 -1 -3] 5 3 6 7 3 1 3 [-1 -3 5] 3 6 7 5 1 3 -1 [-3 5 3] 6 7 5 1 3 -1 -3 [5 3 6] 7 6 1 3 -1 -3 5 [3 6 7] 7 示例 2：输入：nums = [1], k = 1 输出：[1] 提示： 1 <= nums.length...

#单调栈

READ

EDM

Generative Model

2026-01-19

基于文章《Elucidating the Design Space of Diffusion-Based Generative Models》来统一扩散模型框架通用扩散模型框架推导加噪公式 Flow Matching的一步加噪公式 \[\mathbf{x}_t=(1-t)\mathbf{x}_0+t\varepsilon\] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;(1-t)\mathbf{x}_0,t^2\mathbf{I})\] Score Matching的一步加噪公式 \[\mathbf{x}_t=\mathbf{x}_0+\sigma_t\varepsilon \] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;\mathbf{x}_0,\sigma_t^2\mathbf{I})\] DDPM/DDIM的一步加噪公式...

#Generating Model #ODE #SDE #diffusion #flow

READ

EfficientNet

Computer Vision

2026-01-11

简介 EfficientNet源自Google Brain的论文EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. 从标题也可以看出，这篇论文最主要的创新点是Model Scaling. 论文提出了compound scaling，混合缩放，把网络缩放的三种方式：深度、宽度、分辨率，组合起来按照一定规则缩放，从而提高网络的效果。EfficientNet在网络变大时效果提升明显，把精度上限进一步提升，成为了当前最强网络。EfficientNetB7在ImageNet上获得了最先进的 84.4%的top1精度和 97.1%的top5精度，比之前最好的卷积网络（GPipe, Top1: 84.3%, ...

#CV #轻量化

READ

Consistency Models

Generative Model

2026-01-11

Diffusion Models from SDE 连续扩散模型 (Continuous Diffusion Models) 将传统的离散时间扩散过程扩展到连续时间域,可以被视为一个随机过程，使用随机微分方程(SDE)来描述。其前向过程可以写成如下形式： [公式] 其中， f(x,t) 可以看成偏移系数， g(t) 可以看成是扩散系数， dw 是标准布朗运动。这个SDE 描述了数据在连续时间域内如何被噪声逐渐破坏。这个随机过程的逆向过程存在（更准确的描述：下面的逆向时间SDE具有与正向过程SDE相同的联合分布）为 [公式] 前面我们得到了扩散过程的逆向过程可以用一个SDE描述(逆向随机过程),事实上，存在一个确定性过程 (用ODE描述)也是它的逆向过程 (更准确的描述：这个ODE过程的在任...

#diffusion #Generating Model #SDE #ODE

READ

Flash-Attention

Large Model

2026-01-11

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 SelfAtention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 [Math] ）： [公式] 其中： Q, K, V, O 都是形...

#Acceleration #Large Model

READ

Score-based Generative Models

Generative Model

2026-01-11

💡 Score based generative model SMLD的关键点：正式开始介绍之前首先解答一下这个问题：scorebased 模型是什么东西，微分方程在这个模型里到底有什么用？我们知道生成模型基本都是从某个现有的分布中进行采样得到生成的样本，为此模型需要完成对分布的建模。根据建模方式的不同可以分为隐式建模（例如 GAN、diffusion models）和显式建模（例如 VAE、normalizing flows）。和上述的模型相同，scorebased 模型也是用一定方式对分布进行了建模。具体而言，这类模型建模的对象是概率分布函数 log 的梯度，也就是 score function，而为了对这个建模对象进行学习，需要使用一种叫做 score matching 的技术，这也...

#SDE #Generating Model #ODE

READ

混合精度训练

Large Model

2026-01-11

通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。浮点数据类型浮点数据类型主要分为双精度（FP64）、单精度（FP32）、半精度（FP16）。在神经网络模型的训练过程中，一般默认采用单精度（FP32）浮点数据类型，来表示网络模型权重和其他参数。在了解混合精度训练之前，这里简单了解浮点数据类型。根据IEEE二进制浮点数算术标准（IEEE 754）的定义，浮点数据类型分为双精度（FP64）、单精度（FP32）、半精度（FP16）三种，其中每一种都有三个不同的...

#Acceleration

READ

Lightweight Backbones

Computer Vision

2026-01-11

💡 轻量级网络系列 Introduction Inception 在最初的版本 Inception/GoogleNet，其核心思想是利用多尺寸卷积核去观察输入数据。举个栗子，我们看某个景象由于远近不同，同一个物体的大小也会有所不同，那么不同尺度的卷积核观察的特征就会有这样的效果。于是就有了如下的网络结构图：于是我们的网络就变胖了，通过增加网络的宽度，提高了对于不同尺度的适应程度。但这样的话，计算量有点大了。 Pointwise Conv 为了减少在上面结构的参数量并降低计算量，于是在 Inception V1 的基础版本上加上了 1x1 卷积核，这就形成了 Inception V1 的最终网络结构，如下图。这个 1x1 卷积就是 Pointwise Convolution，简称 PW。利...

#CV #轻量化

READ

ThunderNet

Computer Vision

2026-01-11

网络整体介绍 ThunderNet的整体架构如下图所示。 ThunderNet使用320×320像素作为网络的输入分辨率。整体的网络结构分为两部分：Backbone部分和Detection部分。网络的骨干部分为SNet，SNet是基于ShuffleNetV2进行修改得到的。网络的检测部分，利用了压缩的RPN网络，修改自LightHead RCNN网络用以提高效率。并提出Context Enhancement Module整合局部和全局特征增强网络特征表达能力。并提出Spatial Attention Module空间注意模块，引入来自RPN的前后景信息用以优化特征分布。 backbone 部分 1.输入分辨率为了加快推理（前向操作）速度，作者使用320320大小的输入图像。需要注意的...

#CV #Object Detection #轻量化

READ

投机采样之Medusa

Large Model

2026-01-11

概述 Medusa 是自投机领域较早的一篇工作，对后续工作启发很大，其主要思想是 multidecoding head + tree attention + typical acceptance(threshold)。Medusa 没有使用独立的草稿模型，而是在原始模型的基础上增加多个解码头（MEDUSA heads），并行预测多个后续 token。正常的LLM只有一个用于预测 t 时刻token的head。Medusa 在 LLM 的最后一个 Transformer层之后保留原始的 LM Head，然后额外增加多个（假设是 k 个）可训练的Medusa Head（解码头），分别负责预测 ...

#LLM #Acceleration

READ

投机采样之EAGLE

Large Model

2026-01-11

概述 MTP（Multitoken Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1token的生成，转变成multitoken的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个...

#Large Model #Acceleration

READ

投机采样

Large Model

2026-01-11

概述投机解码（Speculative Decoding）也叫预测解码/投机采样，它会利用小模型来预测大型模型的行为，从而提升模型在解码（decoding）阶段的解码效率问题，加速大型模型的执行。其核心思路如下图所示，首先以低成本的方式（以小模型为主，也有多头，检索，Early Exit 等方式）快速生成多个候选 Token（串行序列、树、多头树等），然后通过一次并行验证阶段快速验证多个 Token的正确性，只要平均每个 Step 验证的 Token 数 1，就可以一次性生成多个token，进而减少总的 Decoding 步数，实现加速的目的。下图左侧是自回归解码模型，右侧是投机解码机制。从本质上来说，投机解码希望在推理阶段在不大幅度改变模型的情况下，通过更好利用冗余算力来并行"投机"地...

#LLM #Acceleration

READ

#

!

INCOMING TRANSMISSION

单调队列

EDM

EfficientNet

Consistency Models

Flash-Attention

Score-based Generative Models

混合精度训练

Lightweight Backbones

ThunderNet

投机采样之Medusa

投机采样之EAGLE

投机采样