知识库 - Orange

MAE(Masked Autoencoders)

Computer Vision

2026-01-21

导言自监督学习（Self-Supervised Learning）能利用大量无标注的数据进行表征学习，然后在特定下游任务上对参数进行微调。通过这样的方式，能够在较少有标注数据上取得优于有监督学习方法的精度。近年来，自监督学习受到了越来越多的关注，如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在CV领域涌现了如SwAV、MOCO、DINO、MoBY等一系列工作。MAE是kaiming继MOCO之后在自监督学习领域的又一力作。首先，本文会对MAE进行解读，然后基于EasyCV库的精度复现过程及其中遇到的一些问题作出解答。概述 MAE的做法很简单：随机mask掉图片中的一些patch，然后通过模型去重建这些丢失的区域。包括两个核心的设计：1.非对称编码-解码结构 2.用较高的掩码率（75%）。通过这两个设计MAE在预训练过程中可以取得3倍以上的训练速度和更高的精度，如ViT-Huge能够通过ImageNet-1K数据上取得87.8%的准确率。模型拆解...

#transformer #CV #Self-Supervised

READ

ViT系列

Computer Vision

2026-01-21

概述在计算机视觉领域（CV），对视觉特征的理解CNN是长期处于主导地位的。而在NLP领域，Transformer框架的巨大成功，也激发了不少研究者探索将Transformer用于计算机视觉任务。ViT（Vision Transformer）的出现标志着在CV领域Transformer架构迈出了重要的一步。尤其在当前结合LLM的多模态探索上（MM-LLM），都是以LLM大语言模型为骨干架构的模型，多种模态的信息需要先做token化处理，再输入到LLM模型。ViT天然具有序列化特征的建模能力，自然在MM-LLM探索中大放异彩~ ViT在多模态模型中的角色类似于自然语言建模中的Tokenizer组件，对图像进行视觉特征编码，产出图像的序列特征。只不过ViT的编码过程本身也是采用了Transformer的模型结构。本文主要结合几篇paper和源码讲讲ViT和针对ViT的一些优化方法~ ViT（Vision Transformer）...

#transformer #CV

READ

ViT

Computer Vision

2026-01-21

ViT（vision transformer）是Google在2020年提出的直接将transformer应用在图像分类的模型，后面很多的工作都是基于ViT进行改进的。ViT的思路很简单：直接把图像分成固定大小的patchs，然后通过线性变换得到patch embedding，这就类比NLP的words和word embedding，由于transformer的输入就是a sequence of token embeddings，所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。ViT模型原理如下图所示，其实ViT模型只是用了transformer的Encoder来提取特征（原始的transformer还有decoder部分，用于实现sequence to sequence，比如机器翻译）。下面将分别对各个部分做详细的介绍。 Patch Embedding 对于ViT来说，首先要将原始的2-D图像转换成一系列1-D的patch embeddings，这就好似NLP中的word embedding。输入的2-D图像记为 \(x\in...

#transformer #CV

READ

深度学习什么情况下要偏置（bias）

Deep Learning

2026-01-11

1.深度学习偏置的作用？我们在学深度学习的时候，最早接触到的神经网络应该属于感知器（感知器本身就是一个很简单的神经网络，也许有人认为它不属于神经网络，当然认为它和神经网络长得像也行）要想激活这个感知器，使得 y=1 ，就必须使 x_1w_1 + x_2w_2 +....+x_nw_n T （ T 为一个阈值），而 T 越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来， T 会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置， x_1w_1 + x_2w_2 +....+x_nw_n T 0 xw +b 0 ，总之，偏置的大小控制着激活这个感...

#CNN #DL基础

READ

Deep InfoMax(DIM)

Self-Supervised

2026-01-11

相关内容自监督学习（Selfsupervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。互信息（Mutual Information）：表示两个变量 X 和 Y 之间的关系，定义为：噪声对抗估计（Noise Contrastive Estimation, NCE）：在NLP任务中一种降低计算复杂度的方法，将语言模型估计问题简化为一个二分类问题。 Introduction 无监督学习一个重要的问题就是学习有用的 representation，本文的目的就是训练一个 representation learning 函数（即编码器encod...

#Self-Supervised #对比学习

READ

函数光滑化：不可导函数的可导逼近

Deep Learning

2026-01-11

一般来说，神经网络处理的东西都是连续的浮点数，标准的输出也是连续型的数字。但实际问题中，我们很多时候都需要一个离散的结果，比如分类问题中我们希望输出正确的类别，“类别”是离散的，“类别的概率”才是连续的；又比如我们很多任务的评测指标实际上都是离散的，比如分类问题的正确率和F1、机器翻译中的BLEU，等等。还是以分类问题为例，常见的评测指标是正确率，而常见的损失函数是交叉熵。交叉熵的降低与正确率的提升确实会有一定的关联，但它们不是绝对的单调相关关系。换句话说，交叉熵下降了，正确率不一定上升。显然，如果能用正确率的相反数做损失函数，那是最理想的，但正确率是不可导的（涉及到 [Math] 等操作），所以没法直接用。这时候一般有两种解决方案；一是动用强化学习，将正确率设为奖励函数，这是“用牛刀杀...

#DL基础

READ

CNN感受野

Deep Learning

2026-01-11

如何计算RF 公式一：这个算法从top往下层层迭代直到追溯回input image，从而计算出RF。 [公式] 其中，RF是感受野。RF和RF有点像，N代表 neighbour，指的是第n层的 a feature在n1层的RF，记住N_RF只是一个中间变量，不要和RF混淆。 stride是步长，ksize是卷积核大小。

#DL基础 #CNN

READ

OadTR: Online Action Detection with Transformers

3D Model

2026-01-11

OadTR: Online Action Detection with Transformers

简介之前的很多方法都是用RNN的结构去构建时序上的依赖关系，但是RNN的结构的缺点是不能并行操作，且存在梯度消失的现象。所以本文就是将之前的RNN的结构改为Transfomer的形式。延续了之前TRN的整个网络的框架，也是结合了对未来帧的预测与历史帧的表示相结合来对当前的动作进行预测。方法整个网络框架如上图所示， Encoder就是利用transfomer对longrange的历史和目前帧进行特征表示，其中要说明的一个点就是，这里的特征空间包含T个历史特征，当前窗口的特征以及一个task token，这个task token的作用可以从下图看出来这幅图对比的是输入进classifier的特征与网络输入的特征的相似性，可以看出w/o task token 对应的是当前t=0时刻的特征，...

#video #transformer

READ

Python列表和元组的性能以及存储方式等

Python

2026-01-11

1. 列表和元组总结列表和元组都是一个可以放置任意数据类型的有序集合，他们有以下共同点列表和元组中的元素可以任意，并且都可以嵌套。列表和元组都支持索引，且都支持负数索引，1表示最后一个元素，2表示倒数第二个元素列表和元组都支持切片操作都支持in关键词都可以使用.index()、.count()、sorted()和enumerate()等方法两者之间的相互转换，list()和tuple() 但是他们也是有区别列表是动态的，长度大小不固定，可以随意地增加、删减或者改变元素（mutable）元组是静态的，长度大小不固定，无法增删改，想要对已有的元组做任何“改变”，就只能开辟一块内存，创建新的元组 2. 列表和元组存储方式的差异由于列表是动态的；元组是静态的，不可变的。这样的差异...

#python

READ

python生成器和迭代器

Python

2026-01-11

生成器什么是生成器？通过列表生成式，我们可以直接创建一个列表，但是，受到内存限制，列表容量肯定是有限的，而且创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间，在Python中，这种一边循环一边计算的机制，称为生成器：generator 生成器是一个特殊的程序，可以被用作控制循环的迭代行为，python中生成器是迭代器的一种，使用yield返回值函数，每次调用yield会暂停，而可以使用next()函数和send()函数恢复生成器。生成器类似于返回值为数组的一...

#python

READ

python可变对象与不可变对象

Python

2026-01-11

概念可变对象与不可变对象的区别在于对象本身是否可变。 python内置的一些类型中可变对象：list dict set 不可变对象：tuple string int float bool 举一个例子 [代码] 上面例子很直观地展现了，可变对象是可以直接被改变的，而不可变对象则不可以地址问题下面我们来看一下可变对象的内存地址变化 [代码] 我们可以看到，可变对象变化后，地址是没有改变的如果两个变量同时指向一个地址 1.可变对象 [代码] 我们可以看到，改变a则b也跟着变，因为他们始终指向同一个地址 2.不可变对象 [代码] 我们可以看到，a改变后，它的地址也发生了变化，而b则维持原来的地址，原来地址中的内容也没有发生变化作为函数参数 1.可变对象 [代码] 我们可以看到，可变对象作...

#python

READ

Python的内存回收机制

Python

2026-01-11

概述 python采用的是引用计数机制为主，标记清除和分代收集两种机制为辅的策略。引用计数 Python语言默认采用的垃圾收集机制是『引用计数法 Reference Counting』，该算法最早George E. Collins在1960的时候首次提出，50年后的今天，该算法依然被很多编程语言使用。『引用计数法』的原理是：每个对象维护一个ob_ref字段，用来记录该对象当前被引用的次数，每当新的引用指向该对象时，它的引用计数ob_ref加1，每当该对象的引用失效时计数ob_ref减1，一旦对象的引用计数为0，该对象立即被回收，对象占用的内存空间将被释放。它的缺点是需要额外的空间维护引用计数，这个问题是其次的，不过最主要的问题是它不能解决对象的“循环引用”，因此，也有很多语言比如Jav...

#python

READ

#

!

INCOMING TRANSMISSION

MAE(Masked Autoencoders)

ViT系列

ViT

深度学习什么情况下要偏置（bias）

Deep InfoMax(DIM)

函数光滑化：不可导函数的可导逼近

CNN感受野

OadTR: Online Action Detection with Transformers

Python列表和元组的性能以及存储方式等

python生成器和迭代器

python可变对象与不可变对象

Python的内存回收机制