知识库 - Orange

MAE(Masked Autoencoders)

Computer Vision

2026-01-21

导言自监督学习（Self-Supervised Learning）能利用大量无标注的数据进行表征学习，然后在特定下游任务上对参数进行微调。通过这样的方式，能够在较少有标注数据上取得优于有监督学习方法的精度。近年来，自监督学习受到了越来越多的关注，如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在CV领域涌现了如SwAV、MOCO、DINO、MoBY等一系列工作。MAE是kaiming继MOCO之后在自监督学习领域的又一力作。首先，本文会对MAE进行解读，然后基于EasyCV库的精度复现过程及其中遇到的一些问题作出解答。概述 MAE的做法很简单：随机mask掉图片中的一些patch，然后通过模型去重建这些丢失的区域。包括两个核心的设计：1.非对称编码-解码结构 2.用较高的掩码率（75%）。通过这两个设计MAE在预训练过程中可以取得3倍以上的训练速度和更高的精度，如ViT-Huge能够通过ImageNet-1K数据上取得87.8%的准确率。模型拆解...

#transformer #CV #Self-Supervised

READ

ViT系列

Computer Vision

2026-01-21

概述在计算机视觉领域（CV），对视觉特征的理解CNN是长期处于主导地位的。而在NLP领域，Transformer框架的巨大成功，也激发了不少研究者探索将Transformer用于计算机视觉任务。ViT（Vision Transformer）的出现标志着在CV领域Transformer架构迈出了重要的一步。尤其在当前结合LLM的多模态探索上（MM-LLM），都是以LLM大语言模型为骨干架构的模型，多种模态的信息需要先做token化处理，再输入到LLM模型。ViT天然具有序列化特征的建模能力，自然在MM-LLM探索中大放异彩~ ViT在多模态模型中的角色类似于自然语言建模中的Tokenizer组件，对图像进行视觉特征编码，产出图像的序列特征。只不过ViT的编码过程本身也是采用了Transformer的模型结构。本文主要结合几篇paper和源码讲讲ViT和针对ViT的一些优化方法~ ViT（Vision Transformer）...

#transformer #CV

READ

ViT

Computer Vision

2026-01-21

ViT（vision transformer）是Google在2020年提出的直接将transformer应用在图像分类的模型，后面很多的工作都是基于ViT进行改进的。ViT的思路很简单：直接把图像分成固定大小的patchs，然后通过线性变换得到patch embedding，这就类比NLP的words和word embedding，由于transformer的输入就是a sequence of token embeddings，所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。ViT模型原理如下图所示，其实ViT模型只是用了transformer的Encoder来提取特征（原始的transformer还有decoder部分，用于实现sequence to sequence，比如机器翻译）。下面将分别对各个部分做详细的介绍。 Patch Embedding 对于ViT来说，首先要将原始的2-D图像转换成一系列1-D的patch embeddings，这就好似NLP中的word embedding。输入的2-D图像记为 \(x\in...

#transformer #CV

READ

深度学习什么情况下要偏置（bias）

Deep Learning

2026-01-11

1.深度学习偏置的作用？我们在学深度学习的时候，最早接触到的神经网络应该属于感知器（感知器本身就是一个很简单的神经网络，也许有人认为它不属于神经网络，当然认为它和神经网络长得像也行）要想激活这个感知器，使得 y=1 ，就必须使 x_1w_1 + x_2w_2 +....+x_nw_n T （ T 为一个阈值），而 T 越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来， T 会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置， x_1w_1 + x_2w_2 +....+x_nw_n T 0 xw +b 0 ，总之，偏置的大小控制着激活这个感...

#CNN #DL基础

READ

Deep InfoMax(DIM)

Self-Supervised

2026-01-11

相关内容自监督学习（Selfsupervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。互信息（Mutual Information）：表示两个变量 X 和 Y 之间的关系，定义为：噪声对抗估计（Noise Contrastive Estimation, NCE）：在NLP任务中一种降低计算复杂度的方法，将语言模型估计问题简化为一个二分类问题。 Introduction 无监督学习一个重要的问题就是学习有用的 representation，本文的目的就是训练一个 representation learning 函数（即编码器encod...

#Self-Supervised #对比学习

READ

函数光滑化：不可导函数的可导逼近

Deep Learning

2026-01-11

一般来说，神经网络处理的东西都是连续的浮点数，标准的输出也是连续型的数字。但实际问题中，我们很多时候都需要一个离散的结果，比如分类问题中我们希望输出正确的类别，“类别”是离散的，“类别的概率”才是连续的；又比如我们很多任务的评测指标实际上都是离散的，比如分类问题的正确率和F1、机器翻译中的BLEU，等等。还是以分类问题为例，常见的评测指标是正确率，而常见的损失函数是交叉熵。交叉熵的降低与正确率的提升确实会有一定的关联，但它们不是绝对的单调相关关系。换句话说，交叉熵下降了，正确率不一定上升。显然，如果能用正确率的相反数做损失函数，那是最理想的，但正确率是不可导的（涉及到 [Math] 等操作），所以没法直接用。这时候一般有两种解决方案；一是动用强化学习，将正确率设为奖励函数，这是“用牛刀杀...

#DL基础

READ

CNN感受野

Deep Learning

2026-01-11

如何计算RF 公式一：这个算法从top往下层层迭代直到追溯回input image，从而计算出RF。 [公式] 其中，RF是感受野。RF和RF有点像，N代表 neighbour，指的是第n层的 a feature在n1层的RF，记住N_RF只是一个中间变量，不要和RF混淆。 stride是步长，ksize是卷积核大小。

#DL基础 #CNN

READ

OadTR: Online Action Detection with Transformers

3D Model

2026-01-11

OadTR: Online Action Detection with Transformers

简介之前的很多方法都是用RNN的结构去构建时序上的依赖关系，但是RNN的结构的缺点是不能并行操作，且存在梯度消失的现象。所以本文就是将之前的RNN的结构改为Transfomer的形式。延续了之前TRN的整个网络的框架，也是结合了对未来帧的预测与历史帧的表示相结合来对当前的动作进行预测。方法整个网络框架如上图所示， Encoder就是利用transfomer对longrange的历史和目前帧进行特征表示，其中要说明的一个点就是，这里的特征空间包含T个历史特征，当前窗口的特征以及一个task token，这个task token的作用可以从下图看出来这幅图对比的是输入进classifier的特征与网络输入的特征的相似性，可以看出w/o task token 对应的是当前t=0时刻的特征，...

#video #transformer

READ

Query推荐

Search&Rec

2026-01-11

在电商搜索中，query推荐有很多种产品形态，不同的产品形态也扮演着不同的角色，常见的有query suggestion（SUG）、猜你想搜（搜索发现、大家都在搜）、细选（锦囊）、搜索底纹、搜索PUSH、搜索“风向标”（点击回退query推荐）等。以淘宝当前版本的产品形态为例，有：上述每个方向都值得单独介绍，而本文则先整体从query推荐角度，放在一起介绍，方便横向对比各个场景的目标和方法上的异同之处。而以经典的分类方式展开，可以将query 推荐策略放在用户搜索前、搜索中、浏览中、搜索后（本章不涉及讨论）等各个状态阶段来进行比较：目标以上引出了搜索query推荐的两大目标：搜索增长，目标提升提升渗透率，将用户引导到成交效率更高的搜索场景，提升搜索活跃度，常见的产品形态有：底纹、qu...

#搜索推荐

READ

搜索中的深度匹配模型

Search&Rec

2026-01-11

1. 搜索引擎概述 1.1 推荐和搜索比较推荐系统和搜索应该是机器学习乃至深度学习在工业界落地应用最多也最容易变现的场景。而无论是搜索还是推荐，本质其实都是匹配，搜索的本质是给定query，匹配doc；推荐的本质是给定user，推荐item。对于搜索来说，搜索引擎的本质是对于用户给定query，搜索引擎通过querydoc的match匹配，返回用户最可能点击的文档的过程。从某种意义上来说，query代表的是一类用户，就是对于给定的query，搜索引擎要解决的就是query和doc的match，如图1.1所示。对于推荐来说，推荐系统就是系统根据用户的属性（如性别、年龄、学历等），用户在系统里过去的行为（例如浏览、点击、搜索、收藏等），以及当前上下文环境（如网络、手机设备等），从而给用户推...

#搜索推荐

READ

重排

Search&Rec

2026-01-11

精排是用pointwise方式对商品的CTR/CVR进行预估，旨在建模s=f(user, query, item, context) ，对候选商品进行打分。但有些情况下仅有精排还存在不足之处，如： 1、即使对单个商品进行打分，资源效率限制下，上千候选的精排有时也无法落地更加复杂的模型； 2、pointwise模式的打分无法从候选列表整体或上下文实时反馈角度出发进行排序； 3、直接使用精排分排序无法满足特殊整体性排序需求，如常见的搜索结果的多样性（如价格、地域、品牌、风格等属性的打散）、发现性、异质内容的混排调控（如商品、内容、广告等物料的混排）、流量调控等。相应地，从以上三点出发，本文从“更加精准打分”、“关注序和上下文”、“特殊需求重排”三方面梳理重排的一般方法：更加精准打分重排的第...

#搜索推荐

READ

搜索-特征工程

Search&Rec

2026-01-11

讨论一下推荐系统三板斧：数据、特征和模型，因为搜索的排序套路和推荐十分类似，除了多了query维度特征，对相关性有一定的要求，其他很大程度上思想一致。这里先行引用一个比较形象的推荐系统优化流程： 1. 明确业务目标 1. 将业务目标转化为机器学习可优化目标 1. 样本收集 1. 特征工程 1. 模型选择和训练 1. 离线评测验证 1. 在线AB验证 1. 通过离线验证和在线AB的结果反馈到2，形成一个增强回路慢慢起飞。而在一般情况下，各个环节的贡献占比：样本特征工程模型。另外如果离线验证集85分，线上很多时候也会略低，各种原因也不胜枚举：特征延迟、特征不一致、甚至在样本落盘时的数据丢失等等。本篇先行介绍上述过程特征工程的一般方法，包括特征设计、清洗、变换以及特征选择，并在最后讨论深度学...

#搜索推荐

READ

#

!

INCOMING TRANSMISSION

MAE(Masked Autoencoders)

ViT系列

ViT

深度学习什么情况下要偏置（bias）

Deep InfoMax(DIM)

函数光滑化：不可导函数的可导逼近

CNN感受野

OadTR: Online Action Detection with Transformers

Query推荐

搜索中的深度匹配模型

重排

搜索-特征工程