知识库 - Orange

重参数化：从正态分布到Gumbel Softmax

Deep Learning

2026-01-22

文章从连续情形出发开始介绍重参数，主要的例子是正态分布的重参数；然后引入离散分布的重参数，这就涉及到了Gumbel Softmax，包括Gumbel Softmax的一些证明和讨论；最后再讲讲重参数背后的一些故事，这主要跟梯度估计有关。基本概念重参数（Reparameterization）实际上是处理如下期望形式的目标函数的一种技巧： \[L_{\theta}=\mathbb{E}_{z\sim p_{\theta}(z)}[f(z)]\tag{1}\] 这样的目标在VAE中会出现，在文本GAN也会出现，在强化学习中也会出现（ \(f(z)\) 对应于奖励函数），所以深究下去，我们会经常碰到这样的目标函数。取决于 \(z\) 的连续性，它对应不同的形式： \[\int p_{\theta}(z) f(z)dz\,\,\,\text{(连续情形)}\qquad\qquad \sum_{z} p_{\theta}(z) f(z)\,\,\,\text{(离散情形)}\tag{2}\] 当然，离散情况下我们更喜欢将记号 \(z\) 换成 \(y\) 或者 \(c\) 。为了最小化...

#VAE #DL基础

READ

Deep Generative Models概述

Generative Model

2026-01-18

简介如果以概率的视角看待世界的生成模型。在这样的世界观中，我们可以将任何类型的观察数据（例如 \(D\) ）视为来自底层分布（例如 \( p_{data}\) ）的有限样本集。任何生成模型的目标都是在访问数据集 \(D\) 的情况下近似该数据分布。如果我们能够学习到一个好的生成模型，我们可以将学习到的模型用于下游推理。我们主要对数据分布的参数近似感兴趣，在一组有限的参数中，它总结了关于数据集 \(D\) 的所有信息。与非参数模型相比，参数模型在处理大型数据集时能够更有效地扩展，但受限于可以表示的分布族。在参数的设置中，我们可以将学习生成模型的任务视为在模型分布族中挑选参数，以最小化模型分布和数据分布之间的距离。如上图，给定一个狗的图像数据集，我们的目标是学习模型族 \(M\) 中生成模型 θ 的参数，使得模型分布 \(p_θ\) 接近 \(p_{data}\) 上的数据分布。在数学上，我们可以将我们的目标指定为以下优化问题: \[\mathop{min}\limits_{\theta\in M}d(p_\theta,p_{data})\] 其中， \(d()\)...

#VAE #Autoregressive #Generating Model

READ

自回归生成模型（Autoregressive Models）

Generative Model

2026-01-18

研究对象与基本设定我们希望学习一个能够“生成数据”的概率模型。假设我们有一个数据集 \(D\) ，每个样本是 \(n\) 维二值向量： \(x \in \{0,1\}^n\) 我们的目标是用一个参数化分布 \(p_\theta(x)\) 去逼近真实数据分布 \(p_{\text{data}}(x)\) ，并最终能够：密度估计：给定 \(x\) 计算 \(p_\theta(x)\) 或 \(\log p_\theta(x)\) 采样生成：从 \(p_\theta(x)\) 采样得到新的 \(x\) 表示：链式法则与自回归分解链式法则分解联合分布任意联合分布都可用概率链式法则分解为条件概率的乘积： \[p(x) = \prod_{i=1}^{n} p(x_i \mid x_1, x_2, \dots, x_{i-1}) = \prod_{i=1}^{n} p(x_i \mid x_{<i})\] 其中： \(x_{<i} = [x_1, x_2, \dots, x_{i-1}]\) ，这意味着：只要我们能为每个维度 \(i\) 学好一个条件分布 \(p(x_i \mid...

#Autoregressive #Generating Model

READ

什么是Self-Supervised Learning？

Self-Supervised

2026-01-18

the machine predicts any parts of its input for any observed part 这是LeCun在AAAI 2020上对自监督学习的定义，再结合传统的自监督学习定义，可以总结如下两点特征：通过“半自动”过程从数据本身获取“标签”；从“其他部分”预测部分数据。个人理解，其实任意挖掘对象之间联系、探索不同对象共同本质的方法，都或多或少算是自监督学习的思想。自监督学习与无监督学习的区别主要在于，无监督学习专注于检测特定的数据模式，如聚类、社区发现或异常检测，而自监督学习的目标是恢复（recovering），仍处于监督学习的范式中。上图展示了三者之间的区别，自监督中的“related information” 可以来自其他模态、输入的其他部分以及输入的不同形式。 Self-Supervised...

#Autoregressive #Self-Supervised

READ

DeepSeek-R1

Large Model

2026-01-15

简介后训练（post-training）已成为完整训练流程中的重要组成部分。相比于预训练，后训练需要的计算资源相对较少，但能够：提高推理任务的准确性使模型与社会价值观保持一致适应用户偏好 OpenAI 的 o1 系列模型首次引入了通过增加思维链（Chain-of-Thought）推理过程长度来实现推理时间，扩展这种方法在数学、编程和科学推理等各种推理任务上取得了显著改进研究界已探索多种方法来提高模型的推理能力：比如基于过程的奖励模型（Process-based Reward Models）强化学习（Reinforcement Learning）, 代表工作：InstructGPT，以及搜索算法（蒙特卡洛树搜索（Monte Carlo Tree Search）、束搜索（Beam Search））。然而，这些方法尚未达到与 OpenAI o1 系列模型相当的通用推理性能。 DeepSeek-R1-Zero 本文首先探索使用纯强化学习（RL）来提高语言模型的推理能力，重点关注：探索 LLM 在没有任何监督数据的情况下，通过纯 RL 过程的自我进化来发展推理能力...

#LLM #Reinforcement Learning

READ

深度学习什么情况下要偏置（bias）

Deep Learning

2026-01-11

1.深度学习偏置的作用？我们在学深度学习的时候，最早接触到的神经网络应该属于感知器（感知器本身就是一个很简单的神经网络，也许有人认为它不属于神经网络，当然认为它和神经网络长得像也行）要想激活这个感知器，使得 y=1 ，就必须使 x_1w_1 + x_2w_2 +....+x_nw_n T （ T 为一个阈值），而 T 越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来， T 会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置， x_1w_1 + x_2w_2 +....+x_nw_n T 0 xw +b 0 ，总之，偏置的大小控制着激活这个感...

#DL基础 #CNN

READ

函数光滑化：不可导函数的可导逼近

Deep Learning

2026-01-11

一般来说，神经网络处理的东西都是连续的浮点数，标准的输出也是连续型的数字。但实际问题中，我们很多时候都需要一个离散的结果，比如分类问题中我们希望输出正确的类别，“类别”是离散的，“类别的概率”才是连续的；又比如我们很多任务的评测指标实际上都是离散的，比如分类问题的正确率和F1、机器翻译中的BLEU，等等。还是以分类问题为例，常见的评测指标是正确率，而常见的损失函数是交叉熵。交叉熵的降低与正确率的提升确实会有一定的关联，但它们不是绝对的单调相关关系。换句话说，交叉熵下降了，正确率不一定上升。显然，如果能用正确率的相反数做损失函数，那是最理想的，但正确率是不可导的（涉及到 [Math] 等操作），所以没法直接用。这时候一般有两种解决方案；一是动用强化学习，将正确率设为奖励函数，这是“用牛刀杀...

#DL基础

READ

CNN感受野

Deep Learning

2026-01-11

如何计算RF 公式一：这个算法从top往下层层迭代直到追溯回input image，从而计算出RF。 [公式] 其中，RF是感受野。RF和RF有点像，N代表 neighbour，指的是第n层的 a feature在n1层的RF，记住N_RF只是一个中间变量，不要和RF混淆。 stride是步长，ksize是卷积核大小。

#DL基础 #CNN

READ

Online Action Detection

3D Model

2026-01-11

Temporal action detection可以分为两种setting，一是offline的，在检测时视频是完整可得的，也就是可以利用完整的视频检测动作发生的时间区间（开始时间+结束时间）以及动作的类别; 二是 online的，即处理的是一个视频流，需要在线的检测（or 预测未来）发生的动作类别，但无法知道检测时间点之后的内容。online的问题设定更符合surveillance的需求，需要做实时的检测或者预警；offline的设定更符合视频搜索的需求，比如youtube可能用到的 highlight detection / preview generation。问题演化 Early action detection Online action detection Online a...

#video

READ

Temporal Recurrent Networks for Online Action Detection (TRN)

3D Model

2026-01-11

Temporal Recurrent Networks for Online Action Detection (TRN)

简介这篇文章的思路就是之前的工作都是在利用历史信息和当前时刻的信息，而这篇文章就是要预测未来的信息来结合历史信息做分类。整体框架采用的lstm。方法传统的RNN或者LSTM并不能接收未来的信息，所以作者设计了一个TRN Cell为一个循环单元，TRN Cell 的算法流程如下：右侧的可以横过来看，输入是大lstm中的隐状态h（文中把大的lstm称作Encoder），以h为输入再经过小的lstm，将输出连接起来构成future信息。再解释一下就是，endcoder中得到了时间t的信息，那以t的信息为输入，再经过序列lstm，每个输出就可以看作是对未来 t+1...t+l_d 的预测，这些预测再经过一个FC层和 t 时刻的结合起来，作用于encoder的下一时序。从Loss的角度来说...

#video

READ

Learning to Discriminate Information for Online Action Detection (IDU)

3D Model

2026-01-11

Learning to Discriminate Information for Online Action Detection (IDU)

简介这篇文章主要的动机是，之前的RNN，LSTM，GRU这样的循环结构中，循环单元累计历史输入，但忽视了其与当前动作的联系，所以不能得到一个有效的判别性的表示。 Specifically, the recurrent unit accumulates the input information without explicitly considering its relevance to the current action, and thus the learned representation would be less discriminative. 所以，这篇文章就是在探索是否可以学习一个判别性较强的表示区分相关和不相关的信息以检测当前要动作。 how RNNs can lear...

#video

READ

OadTR: Online Action Detection with Transformers

3D Model

2026-01-11

OadTR: Online Action Detection with Transformers

简介之前的很多方法都是用RNN的结构去构建时序上的依赖关系，但是RNN的结构的缺点是不能并行操作，且存在梯度消失的现象。所以本文就是将之前的RNN的结构改为Transfomer的形式。延续了之前TRN的整个网络的框架，也是结合了对未来帧的预测与历史帧的表示相结合来对当前的动作进行预测。方法整个网络框架如上图所示， Encoder就是利用transfomer对longrange的历史和目前帧进行特征表示，其中要说明的一个点就是，这里的特征空间包含T个历史特征，当前窗口的特征以及一个task token，这个task token的作用可以从下图看出来这幅图对比的是输入进classifier的特征与网络输入的特征的相似性，可以看出w/o task token 对应的是当前t=0时刻的特征，...

#video #transformer

READ

#

!

INCOMING TRANSMISSION

重参数化：从正态分布到Gumbel Softmax

Deep Generative Models概述

自回归生成模型（Autoregressive Models）

什么是Self-Supervised Learning？

DeepSeek-R1

深度学习什么情况下要偏置（bias）

函数光滑化：不可导函数的可导逼近

CNN感受野

Online Action Detection

Temporal Recurrent Networks for Online Action Detection (TRN)

Learning to Discriminate Information for Online Action Detection (IDU)

OadTR: Online Action Detection with Transformers