知识库 - Orange

对比学习概述

Self-Supervised

2026-01-23

如果把近几年对比学习在视觉领域有代表性的工作做一下总结，那么对比学习的发展历程大概可以分为四个阶段：百花齐放这个阶段代表性工作有InstDisc（instance discrimination，）、CPC、CMC等。在这个阶段中，方法、模型、目标函数、代理任务都还没有统一，所以说是一个百花齐放的时代 CV双雄代表作有MoCo v1、SimCLR v1、MoCo v2、SimCLR v2；CPC、CMC的延伸工作、SwAV等。这个阶段发展非常迅速，有的工作间隔甚至不到一个月，ImageNet上的成绩基本上每个月都在被刷新。不用负样本 BYOL及其改进工作、SimSiam（CNN在对比学习中的总结性工作） transformer MoCo v3、DINO。这个阶段，无论是对比学习还是最新的掩码学习，都是用Vision Transformer做的。第一阶段：百花齐放（2018-2019Mid） InstDisc（instance discrimination）这篇文章提出了个体判别任务（代理任务）以及 memory bank ，非常经典，后人给它的方法起名为InstDisc。...

#对比学习 #Self-Supervised

READ

DINO系列

Self-Supervised

2026-01-23

DINO Emerging Properties in Self-Supervised Vision Transformers 论文地址： arxiv.org/pdf/2104.14294 DINO摇摆到了动量式更新，果然【加动量】还是比【只用梯度停止】香。DINO的名字来自于Self- di stillation with no labels中的蒸馏和No标签。 DINO的训练步骤其实以前的对比学习方案也可以理解为知识蒸馏，DINO里更具体得描述了知识蒸馏的含义。下图展示了一个样本通过数据增强得到一对views \((x_1,x_2)\) 。注意DINO后面还会使用更复杂的裁剪和对比方案，但这里简单起见先不考虑那些。模型将输入图像的两种不同的随机变换 \(x_1\) 和 \(x_2\) 分别传递给学生和教师网络。这两个网络具有相同的架构，但参数不同。教师网络的输出以batch内计算的平均值，进行中心化（减去均值）。每个网络输出一个 \(K\)...

#Self-Supervised #对比学习

READ

SimCLR系列

Self-Supervised

2026-01-23

Self-Supervised Learning ，又称为自监督学习，我们知道一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks) 。其主要的方式就是通过自己监督自己。作为代表作的 kaiming 的 MoCo 引发一波热议， Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。所以在这个系列中，我会系统地解读 Self-Supervised Learning 的经典工作。总结下 Self-Supervised Learning 的方法，用 4 个英文单词概括一下就是： Unsupervised Pre-train, Supervised Fine-tune. 这段话先放在这里，可能你现在还不一定完全理解，后面还会再次提到它。在预训练阶段我们使用无标签的数据集 (unlabeled data) ，因为有标签的数据集很贵...

#Self-Supervised #对比学习

READ

MoCo系列

Self-Supervised

2026-01-23

总结下 Self-Supervised Learning 的方法，用 4 个英文单词概括一下就是： Unsupervised Pre-train, Supervised Fine-tune. 在预训练阶段我们使用无标签的数据集 (unlabeled data) ，因为有标签的数据集很贵，打标签得要多少人工劳力去标注，那成本是相当高的，所以这玩意太贵。相反，无标签的数据集网上随便到处爬，它便宜。在训练模型参数的时候，我们不追求把这个参数用带标签数据从初始化的一张白纸给一步训练到位，原因就是数据集太贵。于是 Self-Supervised Learning 就想先把参数从一张白纸训练到初步成型，再从初步成型训练到完全成型。注意这是2个阶段。这个训练到初步成型的东西，我们把它叫做 Visual Representation 。预训练模型的时候，就是模型参数从一张白纸到初步成型的这个过程，还是用无标签数据集。等我把模型参数训练个八九不离十，这时候再根据你下游任务 (Downstream Tasks) 的不同去用带标签的数据集把参数训练到完全成型...

#对比学习 #Self-Supervised

READ

Contrastive Predictive Coding (CPC)

Self-Supervised

2026-01-23

补充知识表示学习（Representation Learning）：学习数据的表征，以便在构建分类器或其他预测器时更容易提取有用的信息，无监督学习也属于表示学习。互信息（Mutual Information）：表示两个变量 \(X\) 和 \(Y\) 之间的关系，定义为： \[I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\] 对比损失(contrastive loss) ：计算成对样本的匹配程度，主要用于降维中。计算公式为： \[L=\frac{1}{2N}\sum_{n-1}^N[yd^2+(1-y)max(margin-d, 0)^2]\] 其中, \(d=\sqrt{(a_n-b_n)^2}\) 为两个样本的欧式距离， \(y=\{0,1\}\) 代表两个样本的匹配程度， \(margin\) 代表设定的阈值。这种损失函数可以很好的表达成对样本的匹配程度，也能够很好用于训练提取特征的模型。当 \( y=1\) （即样本相似）时，损失函数只剩下 \(∑d^2\)...

#Self-Supervised #对比学习

READ

从NCE到InfoNCE

Self-Supervised

2026-01-23

从 NLP 入手 n-gram 语言模型（language model）就是假设一门语言所有可能的句子服从一个概率分布，每个句子出现的概率加起来是1，那么语言模型的任务就是预测每个句子在语言中出现的概率。如果把句子 \(s\) 看成单词 \(w\) 的序列 \(s=\{w_1,w_2,...,w_m\}\) ，那么语言模型就是建模一个 \(p(w_1,w_2,...,w_m)\) 来计算这个句子 \(s\) 出现的概率，直观上我们要得到这个语言模型，基于链式法则可以表示为每个单词出现的条件概率的乘积，我们将条件概率的条件 \((w_1,w_2,...,w_{i-1})\) 称为单词 \(w_i\) 的上下文，用 \(c_i\) 表示。 \[\begin{aligned} p\left(w_{1}, w_{2}, \ldots, w_{m}\right)&=p\left(w_{1}\right) * p\left(w_{2} \mid w_{1}\right) * p\left(w_{3} \mid w_{1}, w_{2}\right) \ldots p\left(w_{m}...

#对比学习 #Self-Supervised

READ

滑动窗口

Algorithm

2026-01-21

76. 最小覆盖子串题目给定两个字符串 s 和 t ，长度分别是 m 和 n ，返回 s 中的最短窗口子串，使得该子串包含 t 中的每一个字符（包括重复字符）。如果没有这样的子串，返回空字符串 "" 。测试用例保证答案唯一。示例 1：输入：s = "ADOBECODEBANC", t = "ABC" 输出："BANC" 解释：最小覆盖子串 "BANC" 包含来自字符串 t 的 'A'、'B' 和 'C'。示例 2：输入：s = "a", t = "a" 输出："a" 解释：整个字符串 s 是最小覆盖子串。示例 3: 输入: s = "a", t = "aa" 输出: "" 解释: t 中两个字符 'a' 均应包含在 s 的子串中，因此没有符合条件的子字符串，返回空字符串。提示： m == s.length n == t.length 1 <= m, n <= 10 5 s 和 t 由英文字母组成题解这是一个经典的滑动窗口 (Sliding Window) 问题我们需要维护一个动态的窗口 [left, right] ：右移扩大：不断移动...

#滑动窗口 #Hash Set

READ

LLaDA--扩散模型LLM

Large Model

2026-01-20

这是一篇尝试改变LLM「范式」的文章：当前主流的LLM架构都是「自回归」的，通俗地理解就是必须「从左到右依次生成」。这篇文章挑战了这一范式，探索扩散模型在 LLMs 上的可行性，通过随机掩码 - 预测的逆向思维，让模型学会「全局思考」。论文： [2502.09992] Large Language Diffusion Models 背景主流大语言模型架构：自回归模型 (Autoregressive LLMs) 过去几年，自回归模型（Autoregressive Models, ARMs）一直是大语言模型(LLM)的主流架构。典型的自回归语言模型以Transformer解码器为基础，按照从左到右的顺序依次预测下一个词元(token)。形式化地，自回归模型将一个长度为 \(N\) 的文本序列 \(X=(x_1, x_2, ..., x_N)\) 的概率分解为各位置的条件概率连乘积： \[P_{\theta}(x_1, x_2, \dots, x_N) = \prod_{i=1}^{N} P_{\theta}(x_i \mid x_1, x_2, \dots,...

#LLM #diffusion

READ

离散扩散模型用于文本生成

Large Model

2026-01-20

引言 Diffusion模型近年来在图像生成这一连续域任务中取得了显著成果，展现出强大的生成能力。然而，在文本生成这一离散域任务中整体效果仍不尽如人意，未能在该领域引起广泛关注。去年，一篇研究离散扩散模型在文本生成的文章《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》获得ICML 2024的Best Paper，引发了学术界的广泛兴趣，也激发了新一轮的研究热潮。随后在2025年，越来越多高校和企业也开始积极探索基于Diffusion的文本生成方法。其中，近期备受关注的Block Diffusion也成功入选ICLR oral，进一步推动了该方向的发展。...

#diffusion #LLM

READ

DDPM

Generative Model

2026-01-19

💡 扩散模型：通过加噪的方式去学习原始数据的分布，从学到的分布中去生成样本 DDPM 关键点： 1. 正向加噪是离散时间马尔可夫链：从 \(x_0\) 逐步加噪得到 \(x_1,x_2,...,x_T\) ；在合适的噪声调度与足够大的 \(T\) 下， \(x_T\) 近似服从 \( N(0,I) \) 的各向同性高斯。 2. 每一步噪声方差 \(β_t\) 满足 \(0<β_t<1\) ，通常随 \(t\) 增大；因此 \(q(x_t|x_{t-1}) \) 的均值缩放系数 \(\sqrt{1-β_t} \) 逐渐减小。 3. 训练通过最大化对数似然的变分下界（ELBO）来学习反向过程 \( p_θ(x_{t-1}|x_t)\) ，并将其参数化为高斯分布（神经网络预测均值/噪声或 score）。 4. 将目标写成 score/DSM 形式时，loss 的权重与对应噪声层的方差尺度（如 \(1-\bar{α}_t\) 或相关量）有关；采样通常是按学习到的反向转移逐步生成（祖先采样），与经典 Langevin MCMC 更新形式不同，但可在 SDE 视角下统一理解。...

#diffusion #Generating Model

READ

EDM

Generative Model

2026-01-19

基于文章《Elucidating the Design Space of Diffusion-Based Generative Models》来统一扩散模型框架通用扩散模型框架推导加噪公式 Flow Matching的一步加噪公式 \[\mathbf{x}_t=(1-t)\mathbf{x}_0+t\varepsilon\] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;(1-t)\mathbf{x}_0,t^2\mathbf{I})\] Score Matching的一步加噪公式 \[\mathbf{x}_t=\mathbf{x}_0+\sigma_t\varepsilon \] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;\mathbf{x}_0,\sigma_t^2\mathbf{I})\] DDPM/DDIM的一步加噪公式...

#SDE #diffusion #flow #ODE #Generating Model

READ

深度学习什么情况下要偏置（bias）

Deep Learning

2026-01-11

1.深度学习偏置的作用？我们在学深度学习的时候，最早接触到的神经网络应该属于感知器（感知器本身就是一个很简单的神经网络，也许有人认为它不属于神经网络，当然认为它和神经网络长得像也行）要想激活这个感知器，使得 y=1 ，就必须使 x_1w_1 + x_2w_2 +....+x_nw_n T （ T 为一个阈值），而 T 越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来， T 会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置， x_1w_1 + x_2w_2 +....+x_nw_n T 0 xw +b 0 ，总之，偏置的大小控制着激活这个感...

#CNN #DL基础

READ

#

!

INCOMING TRANSMISSION

对比学习概述

DINO系列

SimCLR系列

MoCo系列

Contrastive Predictive Coding (CPC)

从NCE到InfoNCE

滑动窗口

LLaDA--扩散模型LLM

离散扩散模型用于文本生成

DDPM

EDM

深度学习什么情况下要偏置（bias）