知识库 - Orange

Contrastive Predictive Coding (CPC)

Self-Supervised

2026-01-23

补充知识表示学习（Representation Learning）：学习数据的表征，以便在构建分类器或其他预测器时更容易提取有用的信息，无监督学习也属于表示学习。互信息（Mutual Information）：表示两个变量 \(X\) 和 \(Y\) 之间的关系，定义为： \[I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\] 对比损失(contrastive loss) ：计算成对样本的匹配程度，主要用于降维中。计算公式为： \[L=\frac{1}{2N}\sum_{n-1}^N[yd^2+(1-y)max(margin-d, 0)^2]\] 其中, \(d=\sqrt{(a_n-b_n)^2}\) 为两个样本的欧式距离， \(y=\{0,1\}\) 代表两个样本的匹配程度， \(margin\) 代表设定的阈值。这种损失函数可以很好的表达成对样本的匹配程度，也能够很好用于训练提取特征的模型。当 \( y=1\) （即样本相似）时，损失函数只剩下 \(∑d^2\)...

#Self-Supervised #对比学习

READ

从NCE到InfoNCE

Self-Supervised

2026-01-23

从 NLP 入手 n-gram 语言模型（language model）就是假设一门语言所有可能的句子服从一个概率分布，每个句子出现的概率加起来是1，那么语言模型的任务就是预测每个句子在语言中出现的概率。如果把句子 \(s\) 看成单词 \(w\) 的序列 \(s=\{w_1,w_2,...,w_m\}\) ，那么语言模型就是建模一个 \(p(w_1,w_2,...,w_m)\) 来计算这个句子 \(s\) 出现的概率，直观上我们要得到这个语言模型，基于链式法则可以表示为每个单词出现的条件概率的乘积，我们将条件概率的条件 \((w_1,w_2,...,w_{i-1})\) 称为单词 \(w_i\) 的上下文，用 \(c_i\) 表示。 \[\begin{aligned} p\left(w_{1}, w_{2}, \ldots, w_{m}\right)&=p\left(w_{1}\right) * p\left(w_{2} \mid w_{1}\right) * p\left(w_{3} \mid w_{1}, w_{2}\right) \ldots p\left(w_{m}...

#对比学习 #Self-Supervised

READ

Deep InfoMax(DIM)

Self-Supervised

2026-01-11

相关内容自监督学习（Selfsupervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。互信息（Mutual Information）：表示两个变量 X 和 Y 之间的关系，定义为：噪声对抗估计（Noise Contrastive Estimation, NCE）：在NLP任务中一种降低计算复杂度的方法，将语言模型估计问题简化为一个二分类问题。 Introduction 无监督学习一个重要的问题就是学习有用的 representation，本文的目的就是训练一个 representation learning 函数（即编码器encod...

#对比学习 #Self-Supervised

READ

PointNet系列

3D Model

2026-01-11

三维深度学习简介多视角（multiview）：通过多视角二维图片组合为三维物体，此方法将传统CNN应用于多张二维视角的图片，特征被view pooling procedure聚合起来形成三维物体；体素（volumetric）：通过将物体表现为空间中的体素进行类似于二维的三维卷积（例如，卷积核大小为5x5x5），是规律化的并且易于类比二维的，但同时因为多了一个维度出来，时间和空间复杂度都非常高，目前已经不是主流的方法了；点云（point clouds）：直接将三维点云抛入网络进行训练，数据量小。主要任务有分类、分割以及大场景下语义分割；非欧式（manifold，graph）：在流形或图的结构上进行卷积，三维点云可以表现为mesh结构，可以通过点对之间临接关系表现为图的结构。点云的特性...

#3D

READ

PointConv

3D Model

2026-01-11

概括这篇文章将卷积比较自然地拓展到点云的情形，思路很赞！文章的主要创新点：“weight function”和“density function”，并能实现translationinvariance和permutationinvariance，可以实现层级化特征提取，而且能自然推广到其deconvolution的情形实现分割，在二维CIFAR10图像分类任务中精度堪比CNN（表明能够充分近似卷积网络），达到了SOTA的性能。缺点：每个kernel都需要由“kernel function”生成，而“kernel function”实质上是一个CNN网络，计算量比较大。思想察觉到：二维卷积中pixel的相对centroid位置与kernel vector的生成方式有关。以二维卷积为例...

#3D

READ

VoteNet

3D Model

2026-01-11

Hough Voting 本文的标题是Deep Hough Voting，先来说一下Hough Voting。用Hough变换检测直线大家想必都听过：对于一条直线，可以使用(r, θ)两个参数进行描述，那么对于图像中的一点，过这个点的直线有很多条，可以生成一系列的(r, θ)，在参数平面内就是一条曲线，也就是说，一个点对应着参数平面内的一个曲线。那如果有很多个点，则会在参数平面内生成很多曲线。那么，如果这些点是能构成一条直线的，那么这条直线的参数(r, θ)就在每条曲线中都存在，所以看起来就像是多条曲线相交在（r,θ）。可以用多条曲线投票的方式来看，其他点都是很少的票数，而（r,θ）则票数很多，所以直线的参数就是（r,θ）。所以Hough变换的思想就是在于，在参数空间内进行投票，投票得数...

#3D

READ

SO-Net

3D Model

2026-01-11

概括针对一些网络在处理point cloud时的缺点，如：不能对点的空间分布进行建模（例如PointNet++，只是能获取局部信息不能得到局部区域之间的空间关系），提出了SONet。SO的含义是利用Selforganizing map的Net。结果：它具有能够对点的空间分布进行建模、层次化特征提取、可调节的感受野范围的优点，并能够用于多种任务如重建、分类、分割等等。取得了相似或超过SOTA的性能，因为可并行化和架构简单使得训练速度很快。贡献： TODO IDEA：作者发现将CNN直接用于SOM图上性能不升反降，为什么（推测：可能是SOM的2D map并不是保持了原本的空间对应关系，可能nodes之间是乱序的，导致用conv2d时精度反而降低）？难点如何对local regions之...

#3D

READ

Stacked Hourglass Networks

3D Model

2026-01-11

论文介绍了一种新的网络结构用于人体姿态检测，作者在论文中展现了不断重复bottomup、topdown过程以及运用intermediate supervison（中间监督）对于网络性能的提升，下面来介绍Stacked Hourglass Networks. 简介理解人类的姿态对于一些高级的任务比如行为识别来说特别重要，而且也是一些人机交互任务的基础。作者提出了一种新的网络结构Stacked Hourglass Networks来对人体的姿态进行识别，这个网络结构能够捕获并整合图像所有尺度的信息。之所以称这种网络为Stacked Hourglass Networks，主要是它长得很像堆叠起来的沙漏，如下图所示：这种堆叠在一起的Hourglass模块结构是对称的，bottomup过程将图片从...

#3D

READ

End-to-End Learning for Joint Detection and Grouping

3D Model

2026-01-11

End-to-End Learning for Joint Detection and Grouping

简介作者认为许多计算机视觉的任务可以看作是检测和分组问题检测一些小的单元，然后将它们组合成更大的单元，例如，多人目标检测可以通过检测人的关节点然后再将它们进行分组（属于同一个人的关节点为一组）解决；实例分割问题可以看作是检测一些相关的像素然后将它们组合成一个目标实例。 Associative Embedding是一种表示关节检测和分组任务的输出的新方法，其基本思想是为每次检测引入一个实数，用作识别对象所属组的“tag”，换句话说，标签将每个检测与同一组中的其他检测相关联。作者使用一个损失函数使得如果相应的检测属于ground truth中的相同组则促使这一对标签具有相似的值。需要注意的是，这里标签具体的值并不重要，重要的是不同标签之间的差异。这篇其实是源自Stacked Hourglas...

#3D

READ

Online Action Detection

3D Model

2026-01-11

Temporal action detection可以分为两种setting，一是offline的，在检测时视频是完整可得的，也就是可以利用完整的视频检测动作发生的时间区间（开始时间+结束时间）以及动作的类别; 二是 online的，即处理的是一个视频流，需要在线的检测（or 预测未来）发生的动作类别，但无法知道检测时间点之后的内容。online的问题设定更符合surveillance的需求，需要做实时的检测或者预警；offline的设定更符合视频搜索的需求，比如youtube可能用到的 highlight detection / preview generation。问题演化 Early action detection Online action detection Online a...

#video

READ

Temporal Recurrent Networks for Online Action Detection (TRN)

3D Model

2026-01-11

Temporal Recurrent Networks for Online Action Detection (TRN)

简介这篇文章的思路就是之前的工作都是在利用历史信息和当前时刻的信息，而这篇文章就是要预测未来的信息来结合历史信息做分类。整体框架采用的lstm。方法传统的RNN或者LSTM并不能接收未来的信息，所以作者设计了一个TRN Cell为一个循环单元，TRN Cell 的算法流程如下：右侧的可以横过来看，输入是大lstm中的隐状态h（文中把大的lstm称作Encoder），以h为输入再经过小的lstm，将输出连接起来构成future信息。再解释一下就是，endcoder中得到了时间t的信息，那以t的信息为输入，再经过序列lstm，每个输出就可以看作是对未来 t+1...t+l_d 的预测，这些预测再经过一个FC层和 t 时刻的结合起来，作用于encoder的下一时序。从Loss的角度来说...

#video

READ

Learning to Discriminate Information for Online Action Detection (IDU)

3D Model

2026-01-11

Learning to Discriminate Information for Online Action Detection (IDU)

简介这篇文章主要的动机是，之前的RNN，LSTM，GRU这样的循环结构中，循环单元累计历史输入，但忽视了其与当前动作的联系，所以不能得到一个有效的判别性的表示。 Specifically, the recurrent unit accumulates the input information without explicitly considering its relevance to the current action, and thus the learned representation would be less discriminative. 所以，这篇文章就是在探索是否可以学习一个判别性较强的表示区分相关和不相关的信息以检测当前要动作。 how RNNs can lear...

#video

READ

#

!

INCOMING TRANSMISSION

Contrastive Predictive Coding (CPC)

从NCE到InfoNCE

Deep InfoMax(DIM)

PointNet系列

PointConv

VoteNet

SO-Net

Stacked Hourglass Networks

End-to-End Learning for Joint Detection and Grouping

Online Action Detection

Temporal Recurrent Networks for Online Action Detection (TRN)

Learning to Discriminate Information for Online Action Detection (IDU)