知识库 - Orange

SigLIP系列

Large Model

2026-01-23

SigLIP 概述 CLIP自提出以来在zero-shot分类、跨模态搜索、多模态对齐等多个领域得到广泛应用。得益于其令人惊叹的能力，激起了研究者广泛的关注和优化。目前对CLIP的优化主要可以分为两大类：其一是如何降低CLIP的训练成本；其二是如何提升CLIP的performance。对于第一类优化任务的常见思路有3种。优化训练架构，如 LiT 通过freezen image encoder，单独训练text encoder来进行text 和image的对齐来加速训练；减少训练token，如 FLIP 通过引入视觉mask，通过只计算非mask区域的视觉表征来实现加速（MAE中的思路）优化目标函数，如 CatLIP 将caption转为class label，用分类任务来代替对比学习任务来实现加速。对于第二类提升CLIP的performance最常用和有效的手段就是数据治理，即构建高质量、大规模、高多样性的图文数据，典型的工作如：DFN。 SigLIP这篇paper 提出用sigmoid...

#VLM #pretrain

READ

BLIP系列：统一理解和生成的自举多模态模型

Large Model

2026-01-22

BLIP 论文名称：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML 2022) 论文地址： https://arxiv.org/pdf/2201.12086.pdf 代码地址： https://github.com/salesforce/BLIP 官方解读博客： https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/ 背景和动机视觉语言训练 (Vision-Language Pre-training, VLP) 最近在各种多模态下游任务上取得了巨大的成功。然而，现有方法有两个主要限制：模型层面：大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色，很少有可以兼顾的模型。比如，基于编码器的模型，像 CLIP，ALBEF 不能直接转移到文本生成任务...

#VLM #pretrain

READ

CLIP

Large Model

2026-01-22

CLIP算法原理 CLIP 不预先定义图像和文本标签类别，直接利用从互联网爬取的 400 million 个image-text pair 进行图文匹配任务的训练，并将其成功迁移应用于30个现存的计算机视觉分类。简单的说，CLIP 无需利用 ImageNet 的数据和标签进行训练，就可以达到 ResNet50 在 ImageNet数据集上有监督训练的结果，所以叫做 Zero-shot。 CLIP（contrastive language-image pre-training）主要的贡献就是利用无监督的文本信息，作为监督信号来学习视觉特征。 CLIP 作者先是回顾了并总结了和上述相关的两条表征学习路线：构建image和text的联系，比如利用已有的image-text pair数据集，从text中学习image的表征；获取更多的数据（不要求高质量，也不要求full...

#pretrain #VLM

READ

深度学习什么情况下要偏置（bias）

Deep Learning

2026-01-11

1.深度学习偏置的作用？我们在学深度学习的时候，最早接触到的神经网络应该属于感知器（感知器本身就是一个很简单的神经网络，也许有人认为它不属于神经网络，当然认为它和神经网络长得像也行）要想激活这个感知器，使得 y=1 ，就必须使 x_1w_1 + x_2w_2 +....+x_nw_n T （ T 为一个阈值），而 T 越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来， T 会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置， x_1w_1 + x_2w_2 +....+x_nw_n T 0 xw +b 0 ，总之，偏置的大小控制着激活这个感...

#DL基础 #CNN

READ

CNN感受野

Deep Learning

2026-01-11

如何计算RF 公式一：这个算法从top往下层层迭代直到追溯回input image，从而计算出RF。 [公式] 其中，RF是感受野。RF和RF有点像，N代表 neighbour，指的是第n层的 a feature在n1层的RF，记住N_RF只是一个中间变量，不要和RF混淆。 stride是步长，ksize是卷积核大小。

#CNN #DL基础

READ

强化学习Model-Free之蒙特卡洛

Reinforcement Learning

2026-01-11

引言与背景蒙特卡洛方法是强化学习中的重要算法类别，它标志着从基于模型到无模型算法的转变。这类算法不依赖环境模型，而是通过与环境的直接交互获取经验数据来学习最优策略。蒙特卡洛方法在强化学习算法谱系中处于"无模型"方法的起始位置，是从基于模型的方法（如值迭代和策略迭代）向无模型方法过渡的第一步。无模型强化学习的核心理念可以简述为：如果没有模型，我们必须有数据；如果没有数据，我们必须有模型；如果两者都没有，我们就无法找到最优策略。在强化学习中，"数据"通常指智能体与环境交互的经验。均值估计问题在介绍蒙特卡洛强化学习算法之前，我们首先需要理解均值估计问题，这是理解从数据而非模型中学习的基础。考虑一个可以取有限实数集合 X 中值的随机变量 X ，我们的任务是计算 X 的均值或期望值： E[...

#Reinforcement Learning #Q-Learning

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#CNN #DL基础

READ

从价值函数到DQN

Reinforcement Learning

2026-01-11

引言与背景价值函数方法是强化学习中的核心技术，它解决了传统表格方法在处理大型状态或动作空间时的效率问题。本文探讨了从表格表示向函数表示的转变，这是强化学习算法发展的重要里程碑。在强化学习的发展路径中，价值函数方法位于从基于模型到无模型、从表格表示到函数表示的演进过程中。它结合了时序差分学习的思想，并通过函数近似技术来处理复杂环境。价值表示：从表格到函数表格与函数表示的对比传统的表格方法将状态值存储在一个表格中：而函数近似方法则使用参数化函数来表示这些值，例如： [公式] 其中 [Math] 称作是状态 s 的特征向量， w 是参数向量。两种不同的表现形式的区别主要体现在以下几个方面：值的检索方式值的更新方式函数复杂度与近似能力函数的复杂度决定了其近似的能力：一阶线性函...

#Q-Learning #Reinforcement Learning

READ

强化学习Model-Free之时序差分

Reinforcement Learning

2026-01-11

引言时序差分（TemporalDifference，TD）方法是强化学习中的一类核心算法，它结合了动态规划与蒙特卡洛方法的优点。TD方法是无模型（modelfree）学习方法，不需要环境模型即可学习价值函数和最优策略。 TD方法的核心特点是通过比较不同时间步骤的估计值之间的差异来更新价值函数，这种差异被称为"时序差分误差"（TD error）。TD方法可以被视为解决贝尔曼方程或贝尔曼最优方程的特殊随机逼近算法。基础TD算法：状态值函数学习给定策略 [Math] ，基础TD算法用于估计状态值函数 [Math] 。假设我们有一些按照策略 [Math] 生成的经验样本 (s_0, r_1, s_1, ..., s_t, r_{t+1}, s_{t+1}, ...) ，TD算法的更新规则为： ...

#Reinforcement Learning #Q-Learning

READ

#

!

INCOMING TRANSMISSION

SigLIP系列

BLIP系列：统一理解和生成的自举多模态模型

CLIP

深度学习什么情况下要偏置（bias）

CNN感受野

强化学习Model-Free之蒙特卡洛

上采样、反卷积与上池化

从价值函数到DQN

强化学习Model-Free之时序差分