知识库 - Orange

重参数化：从正态分布到Gumbel Softmax

Deep Learning

2026-01-22

文章从连续情形出发开始介绍重参数，主要的例子是正态分布的重参数；然后引入离散分布的重参数，这就涉及到了Gumbel Softmax，包括Gumbel Softmax的一些证明和讨论；最后再讲讲重参数背后的一些故事，这主要跟梯度估计有关。基本概念重参数（Reparameterization）实际上是处理如下期望形式的目标函数的一种技巧： \[L_{\theta}=\mathbb{E}_{z\sim p_{\theta}(z)}[f(z)]\tag{1}\] 这样的目标在VAE中会出现，在文本GAN也会出现，在强化学习中也会出现（ \(f(z)\) 对应于奖励函数），所以深究下去，我们会经常碰到这样的目标函数。取决于 \(z\) 的连续性，它对应不同的形式： \[\int p_{\theta}(z) f(z)dz\,\,\,\text{(连续情形)}\qquad\qquad \sum_{z} p_{\theta}(z) f(z)\,\,\,\text{(离散情形)}\tag{2}\] 当然，离散情况下我们更喜欢将记号 \(z\) 换成 \(y\) 或者 \(c\) 。为了最小化...

#VAE #DL基础

READ

Deep Generative Models概述

Generative Model

2026-01-18

简介如果以概率的视角看待世界的生成模型。在这样的世界观中，我们可以将任何类型的观察数据（例如 \(D\) ）视为来自底层分布（例如 \( p_{data}\) ）的有限样本集。任何生成模型的目标都是在访问数据集 \(D\) 的情况下近似该数据分布。如果我们能够学习到一个好的生成模型，我们可以将学习到的模型用于下游推理。我们主要对数据分布的参数近似感兴趣，在一组有限的参数中，它总结了关于数据集 \(D\) 的所有信息。与非参数模型相比，参数模型在处理大型数据集时能够更有效地扩展，但受限于可以表示的分布族。在参数的设置中，我们可以将学习生成模型的任务视为在模型分布族中挑选参数，以最小化模型分布和数据分布之间的距离。如上图，给定一个狗的图像数据集，我们的目标是学习模型族 \(M\) 中生成模型 θ 的参数，使得模型分布 \(p_θ\) 接近 \(p_{data}\) 上的数据分布。在数学上，我们可以将我们的目标指定为以下优化问题: \[\mathop{min}\limits_{\theta\in M}d(p_\theta,p_{data})\] 其中， \(d()\)...

#Generating Model #VAE #Autoregressive

READ

VQGAN

Generative Model

2026-01-18

2022年中旬，以扩散模型为核心的图像生成模型将AI绘画带入了大众的视野。实际上，在更早的一年之前，就有了一个能根据文字生成高清图片的模型——VQGAN。VQGAN不仅本身具有强大的图像生成能力，更是传承了前作VQVAE把图像压缩成离散编码的思想，推广了「先压缩，再生成」的两阶段图像生成思路，启发了无数后续工作。 VQGAN 核心思想 VQGAN的论文名为 Taming Transformers for High-Resolution Image Synthesis，直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出，该方法是在用Transformer生成图像。可是，为什么这个模型叫做VQGAN，是一个GAN呢？这是因为，VQGAN使用了两阶段的图像生成方法：训练时，先训练一个图像压缩模型（包括编码器和解码器两个子模型），再训练一个生成压缩图像的模型。生成时，先用第二个模型生成出一个压缩图像，再用第一个模型复原成真实图像。其中，第一个图像压缩模型叫做VQGAN，第二个压缩图像生成模型是一个基于Transformer的模型。...

#VAE #Generating Model #GAN

READ

从Wasserstein距离、对偶理论到WGAN

Generative Model

2026-01-18

本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。 Wasserstein距离显然，整篇文章必然围绕着Wasserstein距离（ \(\mathcal{W}\) 距离）来展开。假设我们有了两个概率分布 \(p(x),q(x)\) ，那么Wasserstein距离的定义为 \[\mathcal{W}[p,q]=\inf_{\gamma\in \Pi[p,q]} \iint \gamma(\boldsymbol{x},\boldsymbol{y}) d(\boldsymbol{x},\boldsymbol{y}) d\boldsymbol{x}d\boldsymbol{y}\] 事实上，这也算是最优传输理论中最核心的定义了。成本函数首先 \(d(x,y)\) ，它不一定是距离，其准确含义应该是一个成本函数，代表着从 \(x\) 运输到 \(y\) 的成本。常用的 \(d\) 是基于 \(l\)...

#GAN #Generating Model

READ

Generative Adversarial Networks (GAN)

Generative Model

2026-01-18

简介生成对抗网络 ( Generative Adversarial Network, GAN ) 是由 Goodfellow 于 2014 年提出的一种对抗网络。这个网络框架包含两个部分，一个生成模型 (generative model) 和一个判别模型 (discriminative model)。其中，生成模型可以理解为一个伪造者，试图通过构造假的数据骗过判别模型的甄别；判别模型可以理解为一个警察，尽可能甄别数据是来自于真实样本还是伪造者构造的假数据。两个模型都通过不断的学习提高自己的能力，即生成模型希望生成更真的假数据骗过判别模型，而判别模型希望能学习如何更准确的识别生成模型的假数据。网络框架 GAN 由两部分构成，一个生成器 ( Generator ) 和一个判别器 ( Discriminator )。对于生成器，我们需要学习关于数据 \(x\) 的一个分布 \(p_g\) ，首先定义一个输入数据的先验分布 \(p_z(z)\) ，其次定义一个映射 \(G \left(\boldsymbol{z}; \theta_g\right): \boldsymbol{z}...

#GAN #Generating Model

READ

VAE 变分自编码器

Generative Model

2026-01-18

分布变换通常我们会拿VAE跟GAN比较，的确，它们两个的目标基本是一致的——希望构建一个从隐变量 \(Z\) 生成目标数据 \(X\) 的模型，但是实现上有所不同。更准确地讲，它们是假设了 \(Z\) 服从某些常见的分布（比如正态分布或均匀分布），然后希望训练一个模型 \(X=g(Z)\) ，这个模型能够将原来的概率分布映射到训练集的概率分布，也就是说，它们的目的都是进行分布之间的变换。生成模型的难题就是判断生成分布与真实分布的相似度，因为我们只知道两者的采样结果，不知道它们的分布表达式那现在假设 \(Z\) 服从标准的正态分布，那么我就可以从中采样得到若干个 \(Z_1, Z_2, \dots, Z_n\) ，然后对它做变换得到 \(\hat{X}_1 = g(Z_1),\hat{X}_2 = g(Z_2),\dots,\hat{X}_n = g(Z_n)\) ，我们怎么判断这个通过 \(g\)...

#VAE #Generating Model

READ

DeepSeek-R1

Large Model

2026-01-15

简介后训练（post-training）已成为完整训练流程中的重要组成部分。相比于预训练，后训练需要的计算资源相对较少，但能够：提高推理任务的准确性使模型与社会价值观保持一致适应用户偏好 OpenAI 的 o1 系列模型首次引入了通过增加思维链（Chain-of-Thought）推理过程长度来实现推理时间，扩展这种方法在数学、编程和科学推理等各种推理任务上取得了显著改进研究界已探索多种方法来提高模型的推理能力：比如基于过程的奖励模型（Process-based Reward Models）强化学习（Reinforcement Learning）, 代表工作：InstructGPT，以及搜索算法（蒙特卡洛树搜索（Monte Carlo Tree Search）、束搜索（Beam Search））。然而，这些方法尚未达到与 OpenAI o1 系列模型相当的通用推理性能。 DeepSeek-R1-Zero 本文首先探索使用纯强化学习（RL）来提高语言模型的推理能力，重点关注：探索 LLM 在没有任何监督数据的情况下，通过纯 RL 过程的自我进化来发展推理能力...

#Reinforcement Learning #LLM

READ

VQ-VAE

Generative Model

2026-01-11

简介作为一个自编码器，VQVAE的一个明显特征是它编码出的编码向量是离散的，换句话说，它最后得到的编码向量的每个元素都是一个整数，这也就是“Quantised”的含义，我们可以称之为“量子化”（跟量子力学的“量子”一样，都包含离散化的意思）。明明整个模型都是连续的、可导的，但最终得到的编码向量却是离散的，并且重构效果看起来还很清晰（如文章开头的图），这至少意味着VQVAE会包含一些有意思、有价值的技巧，值得我们学习一番。首先，VQVAE其实就是一个AE（自编码器）而不是VAE（变分自编码器），我不知道作者出于什么目的非得用概率的语言来沾VAE的边，这明显加大了读懂这篇论文的难度。其次，VQVAE的核心步骤之一是StraightThrough Estimator，这是将引变量离散化后的优...

#VAE #Generating Model

READ

随机近似（Stochastic Approximation）

Deep Learning

2026-01-11

引言与背景随机逼近（Stochastic Approximation）是一类用于求解寻根或优化问题的随机迭代算法，其特点是不需要知道目标函数或其导数的表达式。随机逼近的核心优势在于：能够处理带有随机噪声的观测数据不需要目标函数的解析表达式可以在线学习，每获得一个新样本就更新估计值均值估计问题考虑一个随机变量 X ，其取值来自有限集合 [Math] 。我们的目标是估计 E[X] 。假设我们有一个独立同分布的样本序列 \{x_i\}_{i=1}^n ，那么 X 的期望值可以近似为： [公式] 非增量方法与增量方法非增量方法：先收集所有样本，然后计算平均值。缺点是如果样本数量很大，可能需要等待很长时间。增量方法：定义 [公式] 可以推导出递归公式： [公式] 这个算法可以增量式地...

#DL基础 #Reinforcement Learning

READ

强化学习Model-Free之蒙特卡洛

Reinforcement Learning

2026-01-11

引言与背景蒙特卡洛方法是强化学习中的重要算法类别，它标志着从基于模型到无模型算法的转变。这类算法不依赖环境模型，而是通过与环境的直接交互获取经验数据来学习最优策略。蒙特卡洛方法在强化学习算法谱系中处于"无模型"方法的起始位置，是从基于模型的方法（如值迭代和策略迭代）向无模型方法过渡的第一步。无模型强化学习的核心理念可以简述为：如果没有模型，我们必须有数据；如果没有数据，我们必须有模型；如果两者都没有，我们就无法找到最优策略。在强化学习中，"数据"通常指智能体与环境交互的经验。均值估计问题在介绍蒙特卡洛强化学习算法之前，我们首先需要理解均值估计问题，这是理解从数据而非模型中学习的基础。考虑一个可以取有限实数集合 X 中值的随机变量 X ，我们的任务是计算 X 的均值或期望值： E[...

#Reinforcement Learning #Q-Learning

READ

RL基础概念

Reinforcement Learning

2026-01-11

基础概念 GridWord Example 环境描述：网格世界是一个直观的二维环境，包含：任务目标：什么是强化学习：依据策略执行动作感知状态得到奖励所谓强化学习(Reinforcement Learning，简称RL)，是指基于智能体在复杂、不确定的环境中最大化它能获得的奖励，从而达到自主决策的目的。 a computational approach to learning whereby an agent tries to maximize the total amount of reward it receives while interacting with a complex and uncertain environment 经典的强化学习模型可以总结为下图的形式（你可以理解...

#Reinforcement Learning

READ

#

!

INCOMING TRANSMISSION

重参数化：从正态分布到Gumbel Softmax

Deep Generative Models概述

VQGAN

从Wasserstein距离、对偶理论到WGAN

Generative Adversarial Networks (GAN)

VAE 变分自编码器

DeepSeek-R1

VQ-VAE

随机近似（Stochastic Approximation）

强化学习Model-Free之蒙特卡洛

RL基础概念