知识库 - Orange

Deep InfoMax(DIM)

Self-Supervised

2026-01-11

相关内容自监督学习（Selfsupervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。互信息（Mutual Information）：表示两个变量 X 和 Y 之间的关系，定义为：噪声对抗估计（Noise Contrastive Estimation, NCE）：在NLP任务中一种降低计算复杂度的方法，将语言模型估计问题简化为一个二分类问题。 Introduction 无监督学习一个重要的问题就是学习有用的 representation，本文的目的就是训练一个 representation learning 函数（即编码器encod...

#对比学习 #Self-Supervised

READ

函数光滑化：不可导函数的可导逼近

Deep Learning

2026-01-11

一般来说，神经网络处理的东西都是连续的浮点数，标准的输出也是连续型的数字。但实际问题中，我们很多时候都需要一个离散的结果，比如分类问题中我们希望输出正确的类别，“类别”是离散的，“类别的概率”才是连续的；又比如我们很多任务的评测指标实际上都是离散的，比如分类问题的正确率和F1、机器翻译中的BLEU，等等。还是以分类问题为例，常见的评测指标是正确率，而常见的损失函数是交叉熵。交叉熵的降低与正确率的提升确实会有一定的关联，但它们不是绝对的单调相关关系。换句话说，交叉熵下降了，正确率不一定上升。显然，如果能用正确率的相反数做损失函数，那是最理想的，但正确率是不可导的（涉及到 [Math] 等操作），所以没法直接用。这时候一般有两种解决方案；一是动用强化学习，将正确率设为奖励函数，这是“用牛刀杀...

#DL基础

READ

CNN感受野

Deep Learning

2026-01-11

如何计算RF 公式一：这个算法从top往下层层迭代直到追溯回input image，从而计算出RF。 [公式] 其中，RF是感受野。RF和RF有点像，N代表 neighbour，指的是第n层的 a feature在n1层的RF，记住N_RF只是一个中间变量，不要和RF混淆。 stride是步长，ksize是卷积核大小。

#CNN #DL基础

READ

Rectified Flow

Generative Model

2026-01-11

💡 原本随机采样的DDPM模型中，也隐含了一个确定性的采样过程DDIM，它的连续极限也是一个ODE。细想上述过程，可以发现不管是“DDPM→DDIM”还是“SDE→ODE”，都是从随机采样模型过渡到确定性模型，而如果我们一开始的目标就是ODE，那么该过程未免显得有点“迂回”了。在本文中，笔者尝试给出ODE扩散模型的直接推导，并揭示了它与雅可比行列式、热传导方程等内容的联系。 Rectified Flow 理论推导微分方程像GAN这样的生成模型，它本质上是希望找到一个确定性变换，能将从简单分布（如标准正态分布）采样出来的随机变量，变换为特定数据分布的样本。flow模型也是生成模型之一，它的思路是反过来，先找到一个能将数据分布变换简单分布的可逆变换，再求解相应的逆变换来得到一个生成模型。 ...

#diffusion #flow #Generating Model

READ

DDIM

Generative Model

2026-01-11

DDPM 有一个非常明显的问题：采样过程很慢。因为 DDPM 的反向过程利用了马尔可夫假设，所以每次都必须在相邻的时间步之间进行去噪，而不能跳过中间步骤。原始论文使用了 1000 个时间步，所以我们在采样时也需要循环 1000 次去噪过程，这个过程是非常慢的。为了加速 DDPM 的采样过程，DDIM 在不利用马尔可夫假设的情况下推导出了 diffusion 的反向过程，最终可以实现仅采样 20～100 步的情况下达到和 DDPM 采样 1000 步相近的生成效果，也就是提速 10～50 倍。这篇文章将对 DDIM 的理论进行讲解，并实现 DDIM 采样的代码。 DDPM 的反向过程首先我们回顾一下 DDPM 反向过程的推导，为了推导出 [Math] 这个条件概率分布，DDPM 利用贝叶斯...

#diffusion #Generating Model

READ

Consistency Models

Generative Model

2026-01-11

Diffusion Models from SDE 连续扩散模型 (Continuous Diffusion Models) 将传统的离散时间扩散过程扩展到连续时间域,可以被视为一个随机过程，使用随机微分方程(SDE)来描述。其前向过程可以写成如下形式： [公式] 其中， f(x,t) 可以看成偏移系数， g(t) 可以看成是扩散系数， dw 是标准布朗运动。这个SDE 描述了数据在连续时间域内如何被噪声逐渐破坏。这个随机过程的逆向过程存在（更准确的描述：下面的逆向时间SDE具有与正向过程SDE相同的联合分布）为 [公式] 前面我们得到了扩散过程的逆向过程可以用一个SDE描述(逆向随机过程),事实上，存在一个确定性过程 (用ODE描述)也是它的逆向过程 (更准确的描述：这个ODE过程的在任...

#SDE #diffusion #Generating Model #ODE

READ

激活函数系列

Deep Learning

2026-01-11

最近，似乎现在每个大型语言模型（LLM）和新闻中提到的复杂神经网络架构都使用略有不同的激活函数，而就在几年前，最常见的做法只是在神经网络的内部层中使用 ReLU。曾经优秀的 ReLUs 怎么了，以及是什么促使最新的大型语言模型（LLMs）的创造者们开始使用不同的（更高级的）激活函数？ Threshold activation (Perceptron) 1957 年，罗森布拉特建造了“感知机” 最古老的激活函数是基本感知器。它由芝加哥大学精神病学系的爱德华·麦克洛奇和沃尔特·皮茨构思，后来由弗兰克·罗森布拉特在 1957 年于康奈尔航空实验室为美国海军在硬件上更著名地实现了。该算法非常简单，其基本规则是：如果某个值超过某个阈值，则返回 1，否则返回 0。有些变体会返回 1 或1。由于其二元...

#DL基础

READ

DDP

Python

2026-01-11

Quick Start 一个最简单的DDP Pytorch例子！环境准备 PyTorch(gpu)=1.5，python=3.6 推荐使用官方打好的PyTorch docker，避免乱七八糟的环境问题影响心情。 [代码] 代码单GPU代码 [代码] 加入DDP的代码 [代码] DDP的基本原理大白话原理假如我们有N张显卡， 1. （缓解GIL限制）在DDP模式下，会有N个进程被启动，每个进程在一张卡上加载一个模型，这些模型的参数在数值上是相同的。 1. （RingReduce加速）在模型训练时，各个进程通过一种叫RingReduce的方法与其他进程通讯，交换各自的梯度，从而获得所有进程的梯度； 1. （实际上就是Data Parallelism）各个进程用平均后的梯度更新自己的参数，...

#pytorch

READ

Tensorflow-@tf_export

Python

2026-01-11

@tf_export为函数取了个名字！ Tensorflow经常看到定义的函数前面加了@tf_export。例如，tensorflow/python/platform/app.py中有： [代码] 首先，@tf_export是一个修饰符。修饰符的本质是一个函数 tf_export的实现在tensorflow/python/util/tf_export.py中： [代码] 等号的右边的理解分两步： 1. functools.partial 1. api_export functools.partial是偏函数,它的本质简而言之是为函数固定某些参数。如：functools.partial(FuncA, p1)的作用是把函数FuncA的第一个参数固定为p1；又如functools.partial(...

#pytorch

READ

Flow Matching

Generative Model

2026-01-11

💡 Flowbased Models Normalizing Flow Normalizing Flow 是一种基于变换对概率分布进行建模的模型，其通过一系列离散且可逆的变换实现任意分布与先验分布（例如标准高斯分布）之间的相互转换。在 Normalizing Flow 训练完成后，就可以直接从高斯分布中进行采样，并通过逆变换得到原始分布中的样本，实现生成的过程。（有关 Normalizing Flow 的详细理论）从这个角度看，Normalizing Flow 和 Diffusion Model 是有一些相通的，其做法的对比如下表所示。从表中可以看到，两者大致的过程是非常类似的，尽管依然有些地方不一样，但这两者应该可以通过一定的方法得到一个比较统一的表示。 Continuous Norma...

#Generating Model #flow #diffusion

READ

条件控制生成

Generative Model

2026-01-11

技术分析从方法上来看，条件控制生成的方式分两种：事后修改（ClassifierGuidance）和事前训练（ClassifierFree）。对于大多数人来说，一个SOTA级别的扩散模型训练成本太大了，而分类器（Classifier）的训练还能接受，所以就想着直接复用别人训练好的无条件扩散模型，用一个分类器来调整生成过程以实现控制生成，这就是事后修改的ClassifierGuidance方案；而对于“财大气粗”的Google、OpenAI等公司来说，它们不缺数据和算力，所以更倾向于往扩散模型的训练过程中就加入条件信号，达到更好的生成效果，这就是事前训练的ClassifierFree方案。 ClassifierGuidance方案最早出自《Diffusion Models Beat GANs...

#diffusion #Generating Model

READ

随机近似（Stochastic Approximation）

Deep Learning

2026-01-11

引言与背景随机逼近（Stochastic Approximation）是一类用于求解寻根或优化问题的随机迭代算法，其特点是不需要知道目标函数或其导数的表达式。随机逼近的核心优势在于：能够处理带有随机噪声的观测数据不需要目标函数的解析表达式可以在线学习，每获得一个新样本就更新估计值均值估计问题考虑一个随机变量 X ，其取值来自有限集合 [Math] 。我们的目标是估计 E[X] 。假设我们有一个独立同分布的样本序列 \{x_i\}_{i=1}^n ，那么 X 的期望值可以近似为： [公式] 非增量方法与增量方法非增量方法：先收集所有样本，然后计算平均值。缺点是如果样本数量很大，可能需要等待很长时间。增量方法：定义 [公式] 可以推导出递归公式： [公式] 这个算法可以增量式地...

#Reinforcement Learning #DL基础

READ

#

!

INCOMING TRANSMISSION

Deep InfoMax(DIM)

函数光滑化：不可导函数的可导逼近

CNN感受野

Rectified Flow

DDIM

Consistency Models

激活函数系列

DDP

Tensorflow-@tf_export

Flow Matching

条件控制生成

随机近似（Stochastic Approximation）