知识库 - Orange

MAE(Masked Autoencoders)

Computer Vision

2026-01-21

导言自监督学习（Self-Supervised Learning）能利用大量无标注的数据进行表征学习，然后在特定下游任务上对参数进行微调。通过这样的方式，能够在较少有标注数据上取得优于有监督学习方法的精度。近年来，自监督学习受到了越来越多的关注，如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在CV领域涌现了如SwAV、MOCO、DINO、MoBY等一系列工作。MAE是kaiming继MOCO之后在自监督学习领域的又一力作。首先，本文会对MAE进行解读，然后基于EasyCV库的精度复现过程及其中遇到的一些问题作出解答。概述 MAE的做法很简单：随机mask掉图片中的一些patch，然后通过模型去重建这些丢失的区域。包括两个核心的设计：1.非对称编码-解码结构 2.用较高的掩码率（75%）。通过这两个设计MAE在预训练过程中可以取得3倍以上的训练速度和更高的精度，如ViT-Huge能够通过ImageNet-1K数据上取得87.8%的准确率。模型拆解...

#transformer #CV #Self-Supervised

READ

ViT系列

Computer Vision

2026-01-21

概述在计算机视觉领域（CV），对视觉特征的理解CNN是长期处于主导地位的。而在NLP领域，Transformer框架的巨大成功，也激发了不少研究者探索将Transformer用于计算机视觉任务。ViT（Vision Transformer）的出现标志着在CV领域Transformer架构迈出了重要的一步。尤其在当前结合LLM的多模态探索上（MM-LLM），都是以LLM大语言模型为骨干架构的模型，多种模态的信息需要先做token化处理，再输入到LLM模型。ViT天然具有序列化特征的建模能力，自然在MM-LLM探索中大放异彩~ ViT在多模态模型中的角色类似于自然语言建模中的Tokenizer组件，对图像进行视觉特征编码，产出图像的序列特征。只不过ViT的编码过程本身也是采用了Transformer的模型结构。本文主要结合几篇paper和源码讲讲ViT和针对ViT的一些优化方法~ ViT（Vision Transformer）...

#transformer #CV

READ

ViT

Computer Vision

2026-01-21

ViT（vision transformer）是Google在2020年提出的直接将transformer应用在图像分类的模型，后面很多的工作都是基于ViT进行改进的。ViT的思路很简单：直接把图像分成固定大小的patchs，然后通过线性变换得到patch embedding，这就类比NLP的words和word embedding，由于transformer的输入就是a sequence of token embeddings，所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。ViT模型原理如下图所示，其实ViT模型只是用了transformer的Encoder来提取特征（原始的transformer还有decoder部分，用于实现sequence to sequence，比如机器翻译）。下面将分别对各个部分做详细的介绍。 Patch Embedding 对于ViT来说，首先要将原始的2-D图像转换成一系列1-D的patch embeddings，这就好似NLP中的word embedding。输入的2-D图像记为 \(x\in...

#transformer #CV

READ

Deep InfoMax(DIM)

Self-Supervised

2026-01-11

相关内容自监督学习（Selfsupervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。互信息（Mutual Information）：表示两个变量 X 和 Y 之间的关系，定义为：噪声对抗估计（Noise Contrastive Estimation, NCE）：在NLP任务中一种降低计算复杂度的方法，将语言模型估计问题简化为一个二分类问题。 Introduction 无监督学习一个重要的问题就是学习有用的 representation，本文的目的就是训练一个 representation learning 函数（即编码器encod...

#Self-Supervised #对比学习

READ

SentencePiece

NLP

2026-01-11

Tokenizer 诸如GPT3/4以及LlaMA/LlaMA2大语言模型都采用了token的作为模型的输入输出，其输入是文本，然后将文本转为token（正整数），然后从一串token（对应于文本）预测下一个token。进入OpenAI官网提供的tokenizer可以看到GPT3tokenizer采用的方法。这里以Hello World为例说明。总共30个token，英文单词一般会用单独的token表示，大小写也会区分不同的token，如Hello和hello，另外有一些由空格前导的单词也会单独编码，这会使得编码整个句子效率更高（这将省去每个空格的编码），对于中文token化，会使用两到三个ID（正整数表示），比如上面的中英文的！。在英语等空白隔开的语言中，文本被预标记化，通常使用不跨...

#NLP

READ

Word2Vec 之 Skip-Gram 模型

NLP

2026-01-11

什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。我们从直观角度上来理解一下，cat这个单词和kitten属于语义上很相近的词，而dog和kitten则不是那么相近，iphone这个单词和kitten的语义就差的更远了。通过对词汇表中单词进行这种数值表示方式的学习（也就是将单词转换为词向量），能...

#NLP

READ

RNN与LSTM

NLP

2026-01-11

RNN 概述在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。而对于这类问题，RNN则比较的擅长。那么RNN是怎么做到的呢？RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引 τ 。对于这其中的任意序列索引号 t ,它对应的输入是对应的样本序列中的 x(t) 。而模型在序列索引号 t 位置的隐藏状态 h(t) ，则由 x(t) 和在 t−1 位置的隐藏状态 h(t−1) 共同决定。在任意序列索引号 t ，我们也有对应的模型预测...

#NLP

READ

OadTR: Online Action Detection with Transformers

3D Model

2026-01-11

OadTR: Online Action Detection with Transformers

简介之前的很多方法都是用RNN的结构去构建时序上的依赖关系，但是RNN的结构的缺点是不能并行操作，且存在梯度消失的现象。所以本文就是将之前的RNN的结构改为Transfomer的形式。延续了之前TRN的整个网络的框架，也是结合了对未来帧的预测与历史帧的表示相结合来对当前的动作进行预测。方法整个网络框架如上图所示， Encoder就是利用transfomer对longrange的历史和目前帧进行特征表示，其中要说明的一个点就是，这里的特征空间包含T个历史特征，当前窗口的特征以及一个task token，这个task token的作用可以从下图看出来这幅图对比的是输入进classifier的特征与网络输入的特征的相似性，可以看出w/o task token 对应的是当前t=0时刻的特征，...

#transformer #video

READ

Query推荐

Search&Rec

2026-01-11

在电商搜索中，query推荐有很多种产品形态，不同的产品形态也扮演着不同的角色，常见的有query suggestion（SUG）、猜你想搜（搜索发现、大家都在搜）、细选（锦囊）、搜索底纹、搜索PUSH、搜索“风向标”（点击回退query推荐）等。以淘宝当前版本的产品形态为例，有：上述每个方向都值得单独介绍，而本文则先整体从query推荐角度，放在一起介绍，方便横向对比各个场景的目标和方法上的异同之处。而以经典的分类方式展开，可以将query 推荐策略放在用户搜索前、搜索中、浏览中、搜索后（本章不涉及讨论）等各个状态阶段来进行比较：目标以上引出了搜索query推荐的两大目标：搜索增长，目标提升提升渗透率，将用户引导到成交效率更高的搜索场景，提升搜索活跃度，常见的产品形态有：底纹、qu...

#搜索推荐

READ

搜索中的深度匹配模型

Search&Rec

2026-01-11

1. 搜索引擎概述 1.1 推荐和搜索比较推荐系统和搜索应该是机器学习乃至深度学习在工业界落地应用最多也最容易变现的场景。而无论是搜索还是推荐，本质其实都是匹配，搜索的本质是给定query，匹配doc；推荐的本质是给定user，推荐item。对于搜索来说，搜索引擎的本质是对于用户给定query，搜索引擎通过querydoc的match匹配，返回用户最可能点击的文档的过程。从某种意义上来说，query代表的是一类用户，就是对于给定的query，搜索引擎要解决的就是query和doc的match，如图1.1所示。对于推荐来说，推荐系统就是系统根据用户的属性（如性别、年龄、学历等），用户在系统里过去的行为（例如浏览、点击、搜索、收藏等），以及当前上下文环境（如网络、手机设备等），从而给用户推...

#搜索推荐

READ

重排

Search&Rec

2026-01-11

精排是用pointwise方式对商品的CTR/CVR进行预估，旨在建模s=f(user, query, item, context) ，对候选商品进行打分。但有些情况下仅有精排还存在不足之处，如： 1、即使对单个商品进行打分，资源效率限制下，上千候选的精排有时也无法落地更加复杂的模型； 2、pointwise模式的打分无法从候选列表整体或上下文实时反馈角度出发进行排序； 3、直接使用精排分排序无法满足特殊整体性排序需求，如常见的搜索结果的多样性（如价格、地域、品牌、风格等属性的打散）、发现性、异质内容的混排调控（如商品、内容、广告等物料的混排）、流量调控等。相应地，从以上三点出发，本文从“更加精准打分”、“关注序和上下文”、“特殊需求重排”三方面梳理重排的一般方法：更加精准打分重排的第...

#搜索推荐

READ

搜索-特征工程

Search&Rec

2026-01-11

讨论一下推荐系统三板斧：数据、特征和模型，因为搜索的排序套路和推荐十分类似，除了多了query维度特征，对相关性有一定的要求，其他很大程度上思想一致。这里先行引用一个比较形象的推荐系统优化流程： 1. 明确业务目标 1. 将业务目标转化为机器学习可优化目标 1. 样本收集 1. 特征工程 1. 模型选择和训练 1. 离线评测验证 1. 在线AB验证 1. 通过离线验证和在线AB的结果反馈到2，形成一个增强回路慢慢起飞。而在一般情况下，各个环节的贡献占比：样本特征工程模型。另外如果离线验证集85分，线上很多时候也会略低，各种原因也不胜枚举：特征延迟、特征不一致、甚至在样本落盘时的数据丢失等等。本篇先行介绍上述过程特征工程的一般方法，包括特征设计、清洗、变换以及特征选择，并在最后讨论深度学...

#搜索推荐

READ

#

!

INCOMING TRANSMISSION

MAE(Masked Autoencoders)

ViT系列

ViT

Deep InfoMax(DIM)

SentencePiece

Word2Vec 之 Skip-Gram 模型

RNN与LSTM

OadTR: Online Action Detection with Transformers

Query推荐

搜索中的深度匹配模型

重排

搜索-特征工程