知识库 - Orange

SDE和扩散模型

2026-03-03

- SMLD 和 DDPM 中使用的噪声扰动可以看作是两个不同 SDE 的离散化 - 扩散模型和评分模型在连续时间极限下完全等价，也就是说将有限次数的加噪过程推广到无穷次，也就是推广到连续的情况下，可以得到一个更加一般的扩散过程，这个过程可以用SDE来表示，求解更加方便 - 两种方法的目标函数可以互相转换随机微分在DDPM中，扩散过程被划分为了固定的T步，还是用DDPM中的类比来说，就是“拆楼”和“建楼”都被事先划分为了T步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。为此，我们用下述SDE描述前向过程（“拆楼”）： \[d\boldsymbol{x} = \boldsymbol{f}_t(\boldsymbol{x}) dt + g_t d\boldsymbol{w}\tag{1}\]...

#diffusion #SDE #Generating Model

READ

轻量级网络系列

Computer Vision

2026-02-26

Introduction Inception 在最初的版本 Inception/GoogleNet，其核心思想是利用多尺寸卷积核去观察输入数据。举个栗子，我们看某个景象由于远近不同，同一个物体的大小也会有所不同，那么不同尺度的卷积核观察的特征就会有这样的效果。于是就有了如下的网络结构图：于是我们的网络就变胖了，通过增加网络的宽度，提高了对于不同尺度的适应程度。但这样的话，计算量有点大了。 Point-wise Conv 为了减少在上面结构的参数量并降低计算量，于是在 Inception V1 的基础版本上加上了 \(1\times 1\) 卷积核，这就形成了 Inception V1 的最终网络结构，如下图。这个 \(1\times1 \) 卷积就是 Pointwise Convolution ，简称 PW。利用它的目的主要是为了减少维度，还用于引入更多的非线性。我们来简单计算下：假定上一层输出的 feature map 维度为 \(100\times 100 \times 128\) ，经过256个大小为 \(5\times5 \) 的卷积后，输出的 feature map...

#轻量化 #CV

READ

LLaDA--扩散模型LLM

Large Model

2026-01-20

这是一篇尝试改变LLM「范式」的文章：当前主流的LLM架构都是「自回归」的，通俗地理解就是必须「从左到右依次生成」。这篇文章挑战了这一范式，探索扩散模型在 LLMs 上的可行性，通过随机掩码 - 预测的逆向思维，让模型学会「全局思考」。论文： [2502.09992] Large Language Diffusion Models 背景主流大语言模型架构：自回归模型 (Autoregressive LLMs) 过去几年，自回归模型（Autoregressive Models, ARMs）一直是大语言模型(LLM)的主流架构。典型的自回归语言模型以Transformer解码器为基础，按照从左到右的顺序依次预测下一个词元(token)。形式化地，自回归模型将一个长度为 \(N\) 的文本序列 \(X=(x_1, x_2, ..., x_N)\) 的概率分解为各位置的条件概率连乘积： \[P_{\theta}(x_1, x_2, \dots, x_N) = \prod_{i=1}^{N} P_{\theta}(x_i \mid x_1, x_2, \dots,...

#LLM #diffusion

READ

离散扩散模型用于文本生成

Large Model

2026-01-20

引言 Diffusion模型近年来在图像生成这一连续域任务中取得了显著成果，展现出强大的生成能力。然而，在文本生成这一离散域任务中整体效果仍不尽如人意，未能在该领域引起广泛关注。去年，一篇研究离散扩散模型在文本生成的文章《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》获得ICML 2024的Best Paper，引发了学术界的广泛兴趣，也激发了新一轮的研究热潮。随后在2025年，越来越多高校和企业也开始积极探索基于Diffusion的文本生成方法。其中，近期备受关注的Block Diffusion也成功入选ICLR oral，进一步推动了该方向的发展。...

#diffusion #LLM

READ

DDPM

Generative Model

2026-01-19

💡 扩散模型：通过加噪的方式去学习原始数据的分布，从学到的分布中去生成样本 DDPM 关键点： 1. 正向加噪是离散时间马尔可夫链：从 \(x_0\) 逐步加噪得到 \(x_1,x_2,...,x_T\) ；在合适的噪声调度与足够大的 \(T\) 下， \(x_T\) 近似服从 \( N(0,I) \) 的各向同性高斯。 2. 每一步噪声方差 \(β_t\) 满足 \(0<β_t<1\) ，通常随 \(t\) 增大；因此 \(q(x_t|x_{t-1}) \) 的均值缩放系数 \(\sqrt{1-β_t} \) 逐渐减小。 3. 训练通过最大化对数似然的变分下界（ELBO）来学习反向过程 \( p_θ(x_{t-1}|x_t)\) ，并将其参数化为高斯分布（神经网络预测均值/噪声或 score）。 4. 将目标写成 score/DSM 形式时，loss 的权重与对应噪声层的方差尺度（如 \(1-\bar{α}_t\) 或相关量）有关；采样通常是按学习到的反向转移逐步生成（祖先采样），与经典 Langevin MCMC 更新形式不同，但可在 SDE 视角下统一理解。...

#diffusion #Generating Model

READ

ControlNet

Generative Model

2026-01-11

ControlNet应该算是2023年文生图领域最重要的工作，它让文生图模型Stable Diffusion实现了文本之外的可控生成，让AI绘画实现了质的飞跃。这篇文章我们将简单总结一下ControlNet技术细节。模型设计 ControlNet的模型结构如下所示，这里是直接复制一份SD的上半部分：Encoder和中间的Middle Block。 ControlNet的输入和原始的SD一样，包括noisy latents、time embedding以及text embedding。除此之外，ControlNet还需要引入额外的condition，这个condition是和原图一样大小的图像，比如canny边界图或者人体骨架图。这里并没有像SD那样采用VAE对condition进行编码，而...

#diffusion #Generating Model

READ

#

!

INCOMING TRANSMISSION

SDE和扩散模型

轻量级网络系列

LLaDA--扩散模型LLM

离散扩散模型用于文本生成

DDPM

ControlNet