知识库 - Orange

Deep InfoMax(DIM)

Self-Supervised

2026-04-02

相关内容自监督学习（Self-supervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。互信息（Mutual Information）：表示两个变量 \(X\) 和 \(Y\) 之间的关系，定义为： \[I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\] 噪声对抗估计（Noise Contrastive Estimation, NCE）：在NLP任务中一种降低计算复杂度的方法，将语言模型估计问题简化为一个二分类问题。 Introduction 无监督学习一个重要的问题就是学习有用的 representation，本文的目的就是训练一个 representation learning 函数（即编码器encoder），其通过最大编码器输入和输出之间的互信息(MI)来学习对下游任务有用的 representation，而互信息可以通过 MINE...

#对比学习 #Self-Supervised

READ

对比学习概述

Self-Supervised

2026-04-02

如果把近几年对比学习在视觉领域有代表性的工作做一下总结，那么对比学习的发展历程大概可以分为四个阶段：百花齐放这个阶段代表性工作有InstDisc（instance discrimination，）、CPC、CMC等。在这个阶段中，方法、模型、目标函数、代理任务都还没有统一，所以说是一个百花齐放的时代 CV双雄代表作有MoCo v1、SimCLR v1、MoCo v2、SimCLR v2；CPC、CMC的延伸工作、SwAV等。这个阶段发展非常迅速，有的工作间隔甚至不到一个月，ImageNet上的成绩基本上每个月都在被刷新。不用负样本 BYOL及其改进工作、SimSiam（CNN在对比学习中的总结性工作） transformer MoCo v3、DINO。这个阶段，无论是对比学习还是最新的掩码学习，都是用Vision Transformer做的。第一阶段：百花齐放（2018-2019Mid） InstDisc（instance discrimination）这篇文章提出了个体判别任务（代理任务）以及 memory bank ，非常经典，后人给它的方法起名为InstDisc。...

#对比学习 #Self-Supervised

READ

从GRPO到GSPO、DAPO

Reinforcement Learning

2026-03-31

回顾 PPO \[\begin{equation}\begin{aligned}\mathcal{J}_{\text{PPO}}(\theta) &= \mathbb{E}_{(q,a)\sim\mathcal{D}, o_{<t}\sim\pi_{\theta_{\text{old}}}(\cdot|q)} \\ &\left[ \min \left( \frac{\pi_\theta(o_t \mid q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t \mid q, o_{<t})} \hat{A}_t, \text{clip}\left(\frac{\pi_\theta(o_t \mid q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t \mid q, o_{<t})}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_t \right) \right]\end{aligned}\tag{1}\end{equation}\] 其中 \((q, a)\) 是数据集...

#Reinforcement Learning #Large Model

READ

LinearAttention 概述

NLP

2026-03-26

概述众所周知，尽管基于Attention机制的Transformer类模型有着良好的并行性能，但它的空间和时间复杂度都是 \(\mathcal{O}(n^2)\) 级别的， \(n\) 是序列长度，所以当 \(n\) 比较大时Transformer模型的计算量难以承受。近来，也有不少工作致力于降低Transformer模型的计算量，比如模型剪枝、量化、蒸馏等精简技术，又或者修改Attention结构，使得其复杂度能降低到 \(\mathcal{O}(n\log n)\) 甚至 \(\mathcal{O}(n)\) 。改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如OpenAI的 Sparse Attention ，通过“只保留小区域内的数值、强制让大部分注意力为零”的方式，来减少Attention的计算量。经过特殊设计之后，Attention矩阵的大部分元素都是0，因此理论上它也能节省显存占用量和计算量。后续类似工作还有《Explicit Sparse Transformer: Concentrated Attention Through Explicit...

#transformer #Linear Attention

READ

The Devil in Linear Transformer

NLP

2026-03-26

Attention 当前最流行的Attention机制当属 Scaled-Dot Attention，形式为 \[\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\tag{1}\end{equation}\] 这里的 \(\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}\) ，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设 \(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times...

#Linear Attention

READ

Preformer

NLP

2026-03-26

Attention 当前最流行的Attention机制当属 Scaled-Dot Attention，形式为 \[\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\tag{1}\end{equation}\] 这里的 \(\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}\) ，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设 \(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times...

#Linear Attention #transformer

READ

状态空间模型SSM到Mamba

NLP

2026-03-26

概述 SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的 S4 ，不算太老，而SSM最新最火的变体大概是 Mamba 。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样 RWKV 、 RetNet 还有此前LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。另外值得一提的是，SSM代表作HiPPO、S4、Mamba的一作都是 Albert Gu ，他还有很多篇SSM相关的作品，毫不夸张地说，这些工作筑起了SSM大厦的基础。不论SSM前景如何，这种坚持不懈地钻研同一个课题的精神都值得我们由衷地敬佩。今天，基本上你能叫出的任何语言模型都是 Transformer 模型。OpenAI 的...

#Linear Attention #NLP

READ

FLASH：高效Transformer设计

NLP

2026-03-25

概述本文模型脉络图本文介绍一个比较有意思的高效Transformer工作——来自Google的《Transformer Quality in Linear Time》 , 什么样的结果值得我们用“惊喜”来形容？有没有言过其实？我们不妨先来看看论文做到了什么：提出了一种新的Transformer变体，它依然具有二次的复杂度，但是相比标准的Transformer，它有着更快的速度、更低的显存占用以及更好的效果；提出一种新的线性化Transformer方案，它不但提升了原有线性Attention的效果，还保持了做Decoder的可能性，并且做Decoder时还能保持高效的训练并行性。说实话，笔者觉得做到以上任意一点都是非常难得的，而这篇论文一下子做到了两点，所以我愿意用“惊喜满满”来形容它。更重要的是，论文的改进总的来说还是比较自然和优雅的，不像很多类似工作一样显得很生硬。此外，笔者自己也做了简单的复现实验，结果显示论文的可复现性应该是蛮好的，所以真的有种“Transformer危矣”的感觉了。门控注意（Gated Attention Unit）...

#Linear Attention #transformer

READ

Transformers are RNNs

NLP

2026-03-25

Attention 当前最流行的Attention机制当属 Scaled-Dot Attention，形式为 \[Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\tag{1}\] 这里的 \(\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}\) ，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设 \(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times d}\) ，一般场景下都有 \(n > d\) 甚至...

#transformer #Linear Attention

READ

QwenVL 系列

Large Model

2026-03-18

Qwen-VL 模型框架 Qwen-VL的整体网络架构由三个组件组成： LLM：使用 Qwen-7B 的预训练权重进行初始化。视觉编码器：Qwen-VL 的可视化编码器使用ViT 架构，使用 Openclip 的 ViT-bigG 的预训练权重进行初始化。在训练和推理过程中，输入图像的大小都会调整为特定分辨率。视觉编码器通过以 14 步幅将图像分割成块来处理图像，生成一组图像特征。位置感知视觉语言适配器：为了缓解长图像特征序列带来的效率问题，Qwen-VL 引入了一种视觉语言适配器来压缩图像特征。类似QFormer，该适配器包括一个随机初始化的单层交叉注意力模块。使用一组可训练向量（嵌入）作为query，并将视觉编码器中的图像特征作为交叉注意力作的key。该机制将视觉特征序列压缩到固定长度 256。图像输入图像不会直接以像素形式喂给语言模型（LLM）。典型流程是： Visual Encoder ：把图片编码成一串视觉特征（embedding/feature sequence）。 Adapter ：把视觉特征映射到语言模型可接入的表征空间/维度。最终得到：...

#VLM #Large Model

READ

投机采样之EAGLE

Large Model

2026-03-12

概述 MTP（Multi-token Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1-token的生成，转变成multi-token的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个token，实现成倍的加速来提升推理性能。侧重训练时提高效率。比如论文“Better & Faster Large Language Models via Multi-token...

#Acceleration #Large Model

READ

#

!

INCOMING TRANSMISSION

Deep InfoMax(DIM)

对比学习概述

从GRPO到GSPO、DAPO

LinearAttention 概述

The Devil in Linear Transformer

Preformer

状态空间模型SSM到Mamba

FLASH：高效Transformer设计

Transformers are RNNs

QwenVL 系列

投机采样之EAGLE