知识库 - Orange

投机采样之EAGLE

Large Model

2026-01-11

概述 MTP（Multitoken Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1token的生成，转变成multitoken的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个...

#Acceleration #Large Model

READ

Performer

NLP

2026-01-11

Preformer Performer的出发点还是标准的Attention，所以在它那里还是有 [Math] ，然后它希望将复杂度线性化，那就是需要找到新的 [Math] ，使得： [公式] 如果找到合理的从 [Math] 到 [Math] 的映射方案，便是该思路的最大难度了。激活函数线性Attention的常见形式如式3，其中 [Math] 、 [Math] 是值域非负的激活函数。那么如何选取这个激活函数呢？Performer告诉我们，应该选择指数函数 [公式] 首先，我们来看它跟已有的结果有什么不一样。在 Transformers are RNNs 给出的选择是： [公式] 我们知道 1+x 正是 e^x 在 x=0 处的一阶泰勒展开，因此 [Math] 这个选择其实已经相当接近 ...

#Linear Attention #transformer

READ

The Devil in Linear Transformer

NLP

2026-01-11

简介承接 Transformers are RNNs 这篇论文目的：为了分析之前linear transformer的效果为什么不好。发现主要是两个原因造成的： 1. 无界梯度（unbounded gradient），会导致模型在训练时不稳定，收敛不好； 1. 注意力稀释（attention dilution），transformer在lower level时应该更关注局部特征，而higher level更关注全局特征，但线性transformer中的attention往往weight 更均匀化，不能聚焦在local区域上，因此称为attention稀释。解决方案： 1. 对linear attention算出来的output接着做个normalization，形成NormForme...

#Linear Attention

READ

投机采样

Large Model

2026-01-11

概述投机解码（Speculative Decoding）也叫预测解码/投机采样，它会利用小模型来预测大型模型的行为，从而提升模型在解码（decoding）阶段的解码效率问题，加速大型模型的执行。其核心思路如下图所示，首先以低成本的方式（以小模型为主，也有多头，检索，Early Exit 等方式）快速生成多个候选 Token（串行序列、树、多头树等），然后通过一次并行验证阶段快速验证多个 Token的正确性，只要平均每个 Step 验证的 Token 数 1，就可以一次性生成多个token，进而减少总的 Decoding 步数，实现加速的目的。下图左侧是自回归解码模型，右侧是投机解码机制。从本质上来说，投机解码希望在推理阶段在不大幅度改变模型的情况下，通过更好利用冗余算力来并行"投机"地...

#Acceleration #LLM

READ

#

!

INCOMING TRANSMISSION

投机采样之EAGLE

Performer

The Devil in Linear Transformer

投机采样