INCOMING TRANSMISSION

LATEST UPDATES

ALL WIP FAV

FLASH：高效Transformer设计

NLP

2026-03-25

概述本文模型脉络图本文介绍一个比较有意思的高效Transformer工作——来自Google的《Transformer Quality in Linear Time》 , 什么样的结果值得我们用“惊喜”来形容？有没有言过其实？我们不妨先来看看论文做到了什么：提出了一种新的Transformer变体，它依然具有二次的复杂度，但是相比标准的Transformer，它有着更快的速度、更低的显存占用以及更好的效果；提出一种新的线性化Transformer方案，它不但提升了原有线性Attention的效果，还保持了做Decoder的可能性，并且做Decoder时还能保持高效的训练并行性。说实话，笔者觉得做到以上任意一点都是非常难得的，而这篇论文一下子做到了两点，所以我愿意用“惊喜满满”来形容它。更重要的是，论文的改进总的来说还是比较自然和优雅的，不像很多类似工作一样显得很生硬。此外，笔者自己也做了简单的复现实验，结果显示论文的可复现性应该是蛮好的，所以真的有种“Transformer危矣”的感觉了。门控注意（Gated Attention Unit）...

#Linear Attention #transformer

READ

Transformers are RNNs

NLP

2026-03-25

Attention 当前最流行的Attention机制当属 Scaled-Dot Attention，形式为 \[Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\tag{1}\] 这里的 \(\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}\) ，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设 \(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times d}\) ，一般场景下都有 \(n > d\) 甚至...

#transformer #Linear Attention

READ

1 2

#

!

INCOMING TRANSMISSION

FLASH：高效Transformer设计

Transformers are RNNs