知识库 - Orange

BLIP系列：统一理解和生成的自举多模态模型

Large Model

2026-01-22

BLIP 论文名称：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML 2022) 论文地址： https://arxiv.org/pdf/2201.12086.pdf 代码地址： https://github.com/salesforce/BLIP 官方解读博客： https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/ 背景和动机视觉语言训练 (Vision-Language Pre-training, VLP) 最近在各种多模态下游任务上取得了巨大的成功。然而，现有方法有两个主要限制：模型层面：大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色，很少有可以兼顾的模型。比如，基于编码器的模型，像 CLIP，ALBEF 不能直接转移到文本生成任务...

#VLM #pretrain

READ

CLIP

Large Model

2026-01-22

CLIP算法原理 CLIP 不预先定义图像和文本标签类别，直接利用从互联网爬取的 400 million 个image-text pair 进行图文匹配任务的训练，并将其成功迁移应用于30个现存的计算机视觉分类。简单的说，CLIP 无需利用 ImageNet 的数据和标签进行训练，就可以达到 ResNet50 在 ImageNet数据集上有监督训练的结果，所以叫做 Zero-shot。 CLIP（contrastive language-image pre-training）主要的贡献就是利用无监督的文本信息，作为监督信号来学习视觉特征。 CLIP 作者先是回顾了并总结了和上述相关的两条表征学习路线：构建image和text的联系，比如利用已有的image-text pair数据集，从text中学习image的表征；获取更多的数据（不要求高质量，也不要求full...

#pretrain #VLM

READ

BEiT：视觉BERT预训练模型

Self-Supervised

2026-01-22

BERT 方法回顾在大规模预训练模型BERT 里面我们介绍了 BERT 的自监督预训练的方法，BERT 可以做的事情也就是Transformer 的 Encoder 可以做的事情，就是输入一排向量，输出另外一排向量，输入和输出的维度是一致的。那么不仅仅是一句话可以看做是一个sequence，一段语音也可以看做是一个sequence，甚至一个image也可以看做是一个sequence。所以BERT其实不仅可以用在NLP上，还可以用在CV里面。所以BERT其实输入的是一段文字，如下图所示。 BERT的架构就是Transformer 的 Encoder 接下来要做的事情是把这段输入文字里面的一部分随机盖住。随机盖住有 2 种，一种是直接用一个Mask 把要盖住的token (对中文来说就是一个字)给Mask掉，具体是换成一个特殊的字符。另一种做法是把这个token替换成一个随机的token。把这段输入文字里面的一部分随机盖住具体BERT详情可以参考：大规模预训练模型BERT BERT 可以直接用在视觉任务上吗？上面的 BERT 都是在 NLP 任务上使用，因为 NLP...

#Self-Supervised #transformer

READ

大规模预训练模型BERT

NLP

2026-01-22

Self-Supervised Learning ，又称为自监督学习，我们知道一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks) 。其主要的方式就是通过自己监督自己。作为代表作的 kaiming 的 MoCo 引发一波热议， Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。所以在这个系列中，我会系统地解读 Self-Supervised Learning 的经典工作。本文主要介绍 Self-Supervised Learning 在 NLP领域的经典工作：BERT模型的原理及其变体。本文来自台湾大学李宏毅老师PPT： https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf 芝麻街在介绍 Self-Supervised Learning...

#NLP #Self-Supervised #transformer

READ

MAE(Masked Autoencoders)

Computer Vision

2026-01-21

导言自监督学习（Self-Supervised Learning）能利用大量无标注的数据进行表征学习，然后在特定下游任务上对参数进行微调。通过这样的方式，能够在较少有标注数据上取得优于有监督学习方法的精度。近年来，自监督学习受到了越来越多的关注，如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在CV领域涌现了如SwAV、MOCO、DINO、MoBY等一系列工作。MAE是kaiming继MOCO之后在自监督学习领域的又一力作。首先，本文会对MAE进行解读，然后基于EasyCV库的精度复现过程及其中遇到的一些问题作出解答。概述 MAE的做法很简单：随机mask掉图片中的一些patch，然后通过模型去重建这些丢失的区域。包括两个核心的设计：1.非对称编码-解码结构 2.用较高的掩码率（75%）。通过这两个设计MAE在预训练过程中可以取得3倍以上的训练速度和更高的精度，如ViT-Huge能够通过ImageNet-1K数据上取得87.8%的准确率。模型拆解...

#CV #transformer #Self-Supervised

READ

ViT系列

Computer Vision

2026-01-21

概述在计算机视觉领域（CV），对视觉特征的理解CNN是长期处于主导地位的。而在NLP领域，Transformer框架的巨大成功，也激发了不少研究者探索将Transformer用于计算机视觉任务。ViT（Vision Transformer）的出现标志着在CV领域Transformer架构迈出了重要的一步。尤其在当前结合LLM的多模态探索上（MM-LLM），都是以LLM大语言模型为骨干架构的模型，多种模态的信息需要先做token化处理，再输入到LLM模型。ViT天然具有序列化特征的建模能力，自然在MM-LLM探索中大放异彩~ ViT在多模态模型中的角色类似于自然语言建模中的Tokenizer组件，对图像进行视觉特征编码，产出图像的序列特征。只不过ViT的编码过程本身也是采用了Transformer的模型结构。本文主要结合几篇paper和源码讲讲ViT和针对ViT的一些优化方法~ ViT（Vision Transformer）...

#transformer #CV

READ

ViT

Computer Vision

2026-01-21

ViT（vision transformer）是Google在2020年提出的直接将transformer应用在图像分类的模型，后面很多的工作都是基于ViT进行改进的。ViT的思路很简单：直接把图像分成固定大小的patchs，然后通过线性变换得到patch embedding，这就类比NLP的words和word embedding，由于transformer的输入就是a sequence of token embeddings，所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。ViT模型原理如下图所示，其实ViT模型只是用了transformer的Encoder来提取特征（原始的transformer还有decoder部分，用于实现sequence to sequence，比如机器翻译）。下面将分别对各个部分做详细的介绍。 Patch Embedding 对于ViT来说，首先要将原始的2-D图像转换成一系列1-D的patch embeddings，这就好似NLP中的word embedding。输入的2-D图像记为 \(x\in...

#transformer #CV

READ

OadTR: Online Action Detection with Transformers

3D Model

2026-01-11

OadTR: Online Action Detection with Transformers

简介之前的很多方法都是用RNN的结构去构建时序上的依赖关系，但是RNN的结构的缺点是不能并行操作，且存在梯度消失的现象。所以本文就是将之前的RNN的结构改为Transfomer的形式。延续了之前TRN的整个网络的框架，也是结合了对未来帧的预测与历史帧的表示相结合来对当前的动作进行预测。方法整个网络框架如上图所示， Encoder就是利用transfomer对longrange的历史和目前帧进行特征表示，其中要说明的一个点就是，这里的特征空间包含T个历史特征，当前窗口的特征以及一个task token，这个task token的作用可以从下图看出来这幅图对比的是输入进classifier的特征与网络输入的特征的相似性，可以看出w/o task token 对应的是当前t=0时刻的特征，...

#video #transformer

READ

L1正则化与L2正则化

Machine Learning

2026-01-11

正则化正则化是一个通用的算法和思想，所以会产生过拟合现象的算法都可以使用正则化来避免过拟合。在经验风险最小化的基础上（也就是训练误差最小化），尽可能采用简单的模型，可以有效提高泛化预测精度。如果模型过于复杂，变量值稍微有点变动，就会引起预测精度问题。正则化之所以有效，就是因为其降低了特征的权重，使得模型更为简单。正则化一般会采用 L1 范式或者 L2 范式，其形式分别为 [Math] 和 [Math] 。 L1正则化 LASSO 回归，相当于为模型添加了这样一个先验知识： w 服从零均值拉普拉斯分布。首先看看拉普拉斯分布长什么样子： [公式] 由于引入了先验知识，所以似然函数这样写： [公式] 取 log 再取负，得到目标函数： [公式] 等价于原始损失函数的后面加上了 L1 正则，...

#Machine Learning

READ

Kernel LR (核逻辑回归)

Machine Learning

2026-01-11

Kernel Logistic Regression 介绍如何将Kernel Trick引入到Logistic Regression，以及LR与SVM的结合 SVM与正则化首先回顾SoftMargin SVM的原始问题: [公式] 其中 ξ_n 是训练数据违反边界的多少，没有违反的话， ξ_n=0 ，反之 ξ_n0 ，换句话说，目标函数的第二项就可以表示模型的损失。现在换一种方式来写，将二者结合起来: ξ_n=max(1−y_n(w^Tz^n+b),0) ，这一个等式就代表了上面的约束条件，这样上述问题，就与下面的无约束问题等价 [公式] 这种形式与之前的L2 正则项很类似: [公式] 在L2中，通过最小化 E_{in} 的同时控制 w 的大小，防止模型过度复杂。从正则化的角度来看的话，S...

#Machine Learning

READ

EM算法

Machine Learning

2026-01-11

EM算法也称期望最大化（ExpectationMaximum,简称EM）算法，它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM）， LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。 EM算法要解决的问题我们经常会从样本观察数据中，找出样本的模型参数。最常用的方法就是极大化模型分布的对数似然函数。但是在一些情况下，我们得到的观察数据有未观察到的隐含数据，此时我们未知的有隐含数据和模型参数，因而无法直接用极大化对数似然函数得到模型分布的参数。怎么办呢？这就是EM算法可以派上用场的地方了。 EM算法解决这个的思路是使用启发式的迭代方法，既然我们无法直接求出模型分布参数，那么我们可以先猜想隐含数据（EM算法的E步），接着基于观察数据和猜测的隐含数据一...

#Machine Learning

READ

过拟合解决方案

Machine Learning

2026-01-11

是什么过拟合（overfitting）是指在模型参数拟合过程中的问题，由于训练数据包含抽样误差，训练时，复杂的模型将抽样误差也考虑在内，将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好；在测试集上效果差。模型泛化能力弱。为什么为什么要解决过拟合现象？这是因为我们拟合的模型一般是用来预测未知的结果（不在训练集内），过拟合虽然在训练集上效果好，但是在实际使用时（测试集）效果差。同时，在很多问题上，我们无法穷尽所有状态，不可能将所有情况都包含在训练集上。所以，必须要解决过拟合问题。为什么在机器学习中比较常见？这是因为机器学习算法为了满足尽可能复杂的任务，其模型的拟合能力一般远远高于问题复杂度，也就是说，机器学习算法有「拟合出正确规则的前提下，进一步拟合噪声」的能力。而...

#Machine Learning

READ

#

!

INCOMING TRANSMISSION

BLIP系列：统一理解和生成的自举多模态模型

CLIP

BEiT：视觉BERT预训练模型

大规模预训练模型BERT

MAE(Masked Autoencoders)

ViT系列

ViT

OadTR: Online Action Detection with Transformers

L1正则化与L2正则化

Kernel LR (核逻辑回归)

EM算法

过拟合解决方案