知识库 - Orange

Contrastive Predictive Coding (CPC)

Self-Supervised

2026-01-23

补充知识表示学习（Representation Learning）：学习数据的表征，以便在构建分类器或其他预测器时更容易提取有用的信息，无监督学习也属于表示学习。互信息（Mutual Information）：表示两个变量 \(X\) 和 \(Y\) 之间的关系，定义为： \[I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\] 对比损失(contrastive loss) ：计算成对样本的匹配程度，主要用于降维中。计算公式为： \[L=\frac{1}{2N}\sum_{n-1}^N[yd^2+(1-y)max(margin-d, 0)^2]\] 其中, \(d=\sqrt{(a_n-b_n)^2}\) 为两个样本的欧式距离， \(y=\{0,1\}\) 代表两个样本的匹配程度， \(margin\) 代表设定的阈值。这种损失函数可以很好的表达成对样本的匹配程度，也能够很好用于训练提取特征的模型。当 \( y=1\) （即样本相似）时，损失函数只剩下 \(∑d^2\)...

#Self-Supervised #对比学习

READ

从NCE到InfoNCE

Self-Supervised

2026-01-23

从 NLP 入手 n-gram 语言模型（language model）就是假设一门语言所有可能的句子服从一个概率分布，每个句子出现的概率加起来是1，那么语言模型的任务就是预测每个句子在语言中出现的概率。如果把句子 \(s\) 看成单词 \(w\) 的序列 \(s=\{w_1,w_2,...,w_m\}\) ，那么语言模型就是建模一个 \(p(w_1,w_2,...,w_m)\) 来计算这个句子 \(s\) 出现的概率，直观上我们要得到这个语言模型，基于链式法则可以表示为每个单词出现的条件概率的乘积，我们将条件概率的条件 \((w_1,w_2,...,w_{i-1})\) 称为单词 \(w_i\) 的上下文，用 \(c_i\) 表示。 \[\begin{aligned} p\left(w_{1}, w_{2}, \ldots, w_{m}\right)&=p\left(w_{1}\right) * p\left(w_{2} \mid w_{1}\right) * p\left(w_{3} \mid w_{1}, w_{2}\right) \ldots p\left(w_{m}...

#对比学习 #Self-Supervised

READ

BEiT：视觉BERT预训练模型

Self-Supervised

2026-01-22

BERT 方法回顾在大规模预训练模型BERT 里面我们介绍了 BERT 的自监督预训练的方法，BERT 可以做的事情也就是Transformer 的 Encoder 可以做的事情，就是输入一排向量，输出另外一排向量，输入和输出的维度是一致的。那么不仅仅是一句话可以看做是一个sequence，一段语音也可以看做是一个sequence，甚至一个image也可以看做是一个sequence。所以BERT其实不仅可以用在NLP上，还可以用在CV里面。所以BERT其实输入的是一段文字，如下图所示。 BERT的架构就是Transformer 的 Encoder 接下来要做的事情是把这段输入文字里面的一部分随机盖住。随机盖住有 2 种，一种是直接用一个Mask 把要盖住的token (对中文来说就是一个字)给Mask掉，具体是换成一个特殊的字符。另一种做法是把这个token替换成一个随机的token。把这段输入文字里面的一部分随机盖住具体BERT详情可以参考：大规模预训练模型BERT BERT 可以直接用在视觉任务上吗？上面的 BERT 都是在 NLP 任务上使用，因为 NLP...

#Self-Supervised #transformer

READ

大规模预训练模型BERT

NLP

2026-01-22

Self-Supervised Learning ，又称为自监督学习，我们知道一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks) 。其主要的方式就是通过自己监督自己。作为代表作的 kaiming 的 MoCo 引发一波热议， Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。所以在这个系列中，我会系统地解读 Self-Supervised Learning 的经典工作。本文主要介绍 Self-Supervised Learning 在 NLP领域的经典工作：BERT模型的原理及其变体。本文来自台湾大学李宏毅老师PPT： https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf 芝麻街在介绍 Self-Supervised Learning...

#Self-Supervised #NLP #transformer

READ

MAE(Masked Autoencoders)

Computer Vision

2026-01-21

导言自监督学习（Self-Supervised Learning）能利用大量无标注的数据进行表征学习，然后在特定下游任务上对参数进行微调。通过这样的方式，能够在较少有标注数据上取得优于有监督学习方法的精度。近年来，自监督学习受到了越来越多的关注，如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在CV领域涌现了如SwAV、MOCO、DINO、MoBY等一系列工作。MAE是kaiming继MOCO之后在自监督学习领域的又一力作。首先，本文会对MAE进行解读，然后基于EasyCV库的精度复现过程及其中遇到的一些问题作出解答。概述 MAE的做法很简单：随机mask掉图片中的一些patch，然后通过模型去重建这些丢失的区域。包括两个核心的设计：1.非对称编码-解码结构 2.用较高的掩码率（75%）。通过这两个设计MAE在预训练过程中可以取得3倍以上的训练速度和更高的精度，如ViT-Huge能够通过ImageNet-1K数据上取得87.8%的准确率。模型拆解...

#Self-Supervised #CV #transformer

READ

单调队列

Algorithm

2026-01-21

129. 滑动窗口最大值题目给你一个整数数组 nums ，有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。示例 1：输入：nums = [1,3,-1,-3,5,3,6,7], k = 3 输出：[3,3,5,5,6,7] 解释：滑动窗口的位置最大值 --------------- ----- [1 3 -1] -3 5 3 6 7 3 1 [3 -1 -3] 5 3 6 7 3 1 3 [-1 -3 5] 3 6 7 5 1 3 -1 [-3 5 3] 6 7 5 1 3 -1 -3 [5 3 6] 7 6 1 3 -1 -3 5 [3 6 7] 7 示例 2：输入：nums = [1], k = 1 输出：[1] 提示： 1 <= nums.length...

#单调栈

READ

EDM

Generative Model

2026-01-19

基于文章《Elucidating the Design Space of Diffusion-Based Generative Models》来统一扩散模型框架通用扩散模型框架推导加噪公式 Flow Matching的一步加噪公式 \[\mathbf{x}_t=(1-t)\mathbf{x}_0+t\varepsilon\] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;(1-t)\mathbf{x}_0,t^2\mathbf{I})\] Score Matching的一步加噪公式 \[\mathbf{x}_t=\mathbf{x}_0+\sigma_t\varepsilon \] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;\mathbf{x}_0,\sigma_t^2\mathbf{I})\] DDPM/DDIM的一步加噪公式...

#diffusion #Generating Model #ODE #SDE #flow

READ

什么是Self-Supervised Learning？

Self-Supervised

2026-01-18

the machine predicts any parts of its input for any observed part 这是LeCun在AAAI 2020上对自监督学习的定义，再结合传统的自监督学习定义，可以总结如下两点特征：通过“半自动”过程从数据本身获取“标签”；从“其他部分”预测部分数据。个人理解，其实任意挖掘对象之间联系、探索不同对象共同本质的方法，都或多或少算是自监督学习的思想。自监督学习与无监督学习的区别主要在于，无监督学习专注于检测特定的数据模式，如聚类、社区发现或异常检测，而自监督学习的目标是恢复（recovering），仍处于监督学习的范式中。上图展示了三者之间的区别，自监督中的“related information” 可以来自其他模态、输入的其他部分以及输入的不同形式。 Self-Supervised...

#Autoregressive #Self-Supervised

READ

Deep InfoMax(DIM)

Self-Supervised

2026-01-11

相关内容自监督学习（Selfsupervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。互信息（Mutual Information）：表示两个变量 X 和 Y 之间的关系，定义为：噪声对抗估计（Noise Contrastive Estimation, NCE）：在NLP任务中一种降低计算复杂度的方法，将语言模型估计问题简化为一个二分类问题。 Introduction 无监督学习一个重要的问题就是学习有用的 representation，本文的目的就是训练一个 representation learning 函数（即编码器encod...

#Self-Supervised #对比学习

READ

R-FCN

Computer Vision

2026-01-11

动机 Faster RCNN是首个利用CNN来完成proposals的预测的，之后的很多目标检测网络都是借助了Faster RCNN的思想。而Faster RCNN系列的网络都可以分成2个部分： 1. Fully Convolutional subnetwork before RoI Layer 1. RoIwise subnetwork 第1部分就是直接用普通分类网络的卷积层，用其来提取共享特征，然后一个RoI Pooling Layer在第1部分的最后一张特征图上进行提取针对各个RoIs的特征向量（或者说是特征图，维度变换一下即可），然后将所有RoIs的特征向量都交由第2部分来处理（分类和回归），而第二部分一般都是一些全连接层，在最后有2个并行的loss函数：softmax和smooth...

#Self-Supervised #CV

READ

Deformable Convolution系列

Computer Vision

2026-01-11

Deformable Conv v1 这篇文章其实比较老了，是 2017 年 5 月出的 1. Motivation 1.1 Task 上的难点视觉任务中一个难点就是如何 model 物体的几何变换，比如由于物体大小，pose, viewpoint 引起的。一般有两类做法：在数据集上做文章，让 training dataset 就包含所有可能的集合变换。通过 affine transformation 去做 augmentation 另一种就是设计 transformationinvariant (对那些几何变换不变）的 feature 和算法。比如 SIFT 和 sliding window 的方式。文章说上述两种方式有问题，几何变换我们是事先知道的，这种不能 generalize ...

#Self-Supervised #CV

READ

PointNet系列

3D Model

2026-01-11

三维深度学习简介多视角（multiview）：通过多视角二维图片组合为三维物体，此方法将传统CNN应用于多张二维视角的图片，特征被view pooling procedure聚合起来形成三维物体；体素（volumetric）：通过将物体表现为空间中的体素进行类似于二维的三维卷积（例如，卷积核大小为5x5x5），是规律化的并且易于类比二维的，但同时因为多了一个维度出来，时间和空间复杂度都非常高，目前已经不是主流的方法了；点云（point clouds）：直接将三维点云抛入网络进行训练，数据量小。主要任务有分类、分割以及大场景下语义分割；非欧式（manifold，graph）：在流形或图的结构上进行卷积，三维点云可以表现为mesh结构，可以通过点对之间临接关系表现为图的结构。点云的特性...

#3D

READ

#

!

INCOMING TRANSMISSION

Contrastive Predictive Coding (CPC)

从NCE到InfoNCE

BEiT：视觉BERT预训练模型

大规模预训练模型BERT

MAE(Masked Autoencoders)

单调队列

EDM

什么是Self-Supervised Learning？

Deep InfoMax(DIM)

R-FCN

Deformable Convolution系列

PointNet系列