知识库 - Orange

Transformers are RNNs

NLP

2026-01-11

摘掉Softmax 制约Attention性能的关键因素，其实是定义里边的Softmax！事实上，简单地推导一下就可以得到这个结论。 [Math] 这一步我们得到一个 [Math] 的矩阵，就是这一步决定了Attention的复杂度是 [Math] ；如果没有Softmax，那么就是三个矩阵连乘 [Math] ，而矩阵乘法是满足结合率的，所以我们可以先算 [Math] ，得到一个 [Math] 的矩阵，然后再用 [Math] 左乘它，由于 [Math] ，所以这样算大致的复杂度只是 [Math] （就是 [Math] 左乘那一步占主导）。也就是说，去掉Softmax的Attention的复杂度可以降到最理想的线性级别 [Math] ！这显然就是我们的终极追求：Linear Attentio...

#transformer #Linear Attention

READ

FLASH：高效Transformer设计

NLP

2026-01-11

概述本文介绍一个比较有意思的高效Transformer工作——来自Google的《Transformer Quality in Linear Time》，经过细读之后，笔者认为论文里边真算得上是“惊喜满满”了～什么样的结果值得我们用“惊喜”来形容？有没有言过其实？我们不妨先来看看论文做到了什么： 1. 提出了一种新的Transformer变体，它依然具有二次的复杂度，但是相比标准的Transformer，它有着更快的速度、更低的显存占用以及更好的效果； 1. 提出一种新的线性化Transformer方案，它不但提升了原有线性Attention的效果，还保持了做Decoder的可能性，并且做Decoder时还能保持高效的训练并行性。说实话，笔者觉得做到以上任意一点都是非常难得的，而这篇论...

#transformer #Linear Attention

READ

状态空间模型SSM到Mamba

NLP

2026-01-11

概述 SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的 S4，不算太老，而SSM最新最火的变体大概是Mamba。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样RWKV、RetNet还有此前LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。另外值得一提的是，SSM代表作HiPPO、S4、Mam...

#Linear Attention #NLP

READ

164. 最大间距（乱序数组排序后最大间距）

Algorithm

2026-01-11

题目给定一个无序的数组，找出数组在排序之后，相邻元素之间最大的差值。如果数组元素个数小于 2，则返回 0。 Example 1: [代码] 解题思路：如果进行排序，这里会超时。采用桶排序排序算法的思想，可以在线性时间解决。 1. 首先建立桶，每个桶中只需要存放这个桶中元素的最大值和最小值。 1. 我们期望将数组中的各个数等距离分配，也就是每个桶的长度相同，也就是对于所有桶来说，桶内最大值减去桶内最小值都是一样的。可以当成公式来记。 1. 确定桶的数量，最后的加一保证了数组的最大值也能分到一个桶。为什么需要这样规定桶的尺寸呢？因为这样可以让最大的间距的两个元素在两个不同的桶中。可以证明一下，因为我们用元素范围之差除以元素个数，所以桶的尺寸就是平均的元素间距，显然最大间距的两个元素不可能...

#Algorithm

READ

39&40. 组合总和

Algorithm

2026-01-11

1. 可以重复选取给定一个无重复元素的数组 candidates 和一个目标数 target ，找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的数字可以无限制重复被选取。画出树状搜索图如下，为了去除重复的情况，我们需要按照某种顺序搜索，具体做法是：每一次搜索的时候，设置下一轮搜索的起点 [代码] 2. 不能被重复选取与上面的区别在于 1. index每次不要重复搜索，而是去寻找下一个 1. 排除重复的元素 [代码]

#Algorithm

READ

N-Gram

NLP

2026-01-11

1. 什么是NGram模型 NGram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的BiGram和三元的TriGram。说完了ngram模型的概念之后，下面讲解ngram的一般应用。 2. NGram模型用于评估语句是否合理如果...

#NLP

READ

词向量与Embedding

NLP

2026-01-11

词向量，英文名叫Word Embedding，按照字面意思，应该是词嵌入。说到词向量，不少读者应该会立马想到Google出品的Word2Vec，大牌效应就是不一样。另外，用Keras之类的框架还有一个Embedding层，也说是将词ID映射为向量。由于先入为主的意识，大家可能就会将词向量跟Word2Vec等同起来，而反过来问“Embedding是哪种词向量？”这类问题，尤其是对于初学者来说，应该是很混淆的。事实上，哪怕对于老手，也不一定能够很好地说清楚。这一切，还得从one hot说起... 五十步笑百步 one hot，中文可以翻译为“独热”，是最原始的用来表示字、词的方式。为了简单，本文以字为例，词也是类似的。假如词表中有“科、学、空、间、不、错”六个字，one hot就是给这六个字分...

#NLP

READ

LinearAttention 概述

NLP

2026-01-11

概述众所周知，尽管基于Attention机制的Transformer类模型有着良好的并行性能，但它的空间和时间复杂度都是 [Math] 级别的， n 是序列长度，所以当 n 比较大时Transformer模型的计算量难以承受。近来，也有不少工作致力于降低Transformer模型的计算量，比如模型剪枝、量化、蒸馏等精简技术，又或者修改Attention结构，使得其复杂度能降低到 [Math] 甚至 [Math] 。改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如OpenAI的Sparse Attention，通过“只保留小区域内的数值、强制让大部分注意力为零”的方式，来减少Attention的计算量。经过特殊设计之后，Attention矩阵的大部分元素都是0，因此理论上它也能节...

#Linear Attention #transformer

READ

Performer

NLP

2026-01-11

Preformer Performer的出发点还是标准的Attention，所以在它那里还是有 [Math] ，然后它希望将复杂度线性化，那就是需要找到新的 [Math] ，使得： [公式] 如果找到合理的从 [Math] 到 [Math] 的映射方案，便是该思路的最大难度了。激活函数线性Attention的常见形式如式3，其中 [Math] 、 [Math] 是值域非负的激活函数。那么如何选取这个激活函数呢？Performer告诉我们，应该选择指数函数 [公式] 首先，我们来看它跟已有的结果有什么不一样。在 Transformers are RNNs 给出的选择是： [公式] 我们知道 1+x 正是 e^x 在 x=0 处的一阶泰勒展开，因此 [Math] 这个选择其实已经相当接近 ...

#Linear Attention #transformer

READ

The Devil in Linear Transformer

NLP

2026-01-11

简介承接 Transformers are RNNs 这篇论文目的：为了分析之前linear transformer的效果为什么不好。发现主要是两个原因造成的： 1. 无界梯度（unbounded gradient），会导致模型在训练时不稳定，收敛不好； 1. 注意力稀释（attention dilution），transformer在lower level时应该更关注局部特征，而higher level更关注全局特征，但线性transformer中的attention往往weight 更均匀化，不能聚焦在local区域上，因此称为attention稀释。解决方案： 1. 对linear attention算出来的output接着做个normalization，形成NormForme...

#Linear Attention

READ

背包问题

Algorithm

2026-01-11

01背包描述有N件物品和一个容量为V的背包。第i件物品的体积是vi，价值是wi。求解将哪些物品装入背包，可使这些物品的总体积不超过背包流量，且总价值最大。二维动态规划 f[i][j] 表示只看前i个物品，总体积是j的情况下，总价值最大是多少。 result = max(f[n][0V]) f[i][j]: 不选第i个物品：f[i][j] = f[i1][j]; 选第i个物品：f[i][j] = f[i1][jv[i]] + w[i]（v[i]是第i个物品的体积）两者之间取最大。初始化：f[0][0] = 0 代码如下： [代码] 一维动态优化从上面二维的情况来看，f[i] 只与f[i1]相关，因此只用使用一个一维数组[0v]来存储前一个状态。那么如何来实现呢？第一个问题：状...

#Algorithm

READ

#

!

INCOMING TRANSMISSION

Transformers are RNNs

FLASH：高效Transformer设计

状态空间模型SSM到Mamba

164. 最大间距（乱序数组排序后最大间距）

39&40. 组合总和

N-Gram

词向量与Embedding

LinearAttention 概述

Performer

The Devil in Linear Transformer

背包问题