知识库 - Orange

LLM Finetuning— Lora

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 LoRA LoRA（LowRank Adapt...

#LLM #Fine-tuning

READ

Transformers are RNNs

NLP

2026-01-11

摘掉Softmax 制约Attention性能的关键因素，其实是定义里边的Softmax！事实上，简单地推导一下就可以得到这个结论。 [Math] 这一步我们得到一个 [Math] 的矩阵，就是这一步决定了Attention的复杂度是 [Math] ；如果没有Softmax，那么就是三个矩阵连乘 [Math] ，而矩阵乘法是满足结合率的，所以我们可以先算 [Math] ，得到一个 [Math] 的矩阵，然后再用 [Math] 左乘它，由于 [Math] ，所以这样算大致的复杂度只是 [Math] （就是 [Math] 左乘那一步占主导）。也就是说，去掉Softmax的Attention的复杂度可以降到最理想的线性级别 [Math] ！这显然就是我们的终极追求：Linear Attentio...

#transformer #Linear Attention

READ

SDE和扩散模型

Generative Model

2026-01-11

💡 随机微分在DDPM中，扩散过程被划分为了固定的T步，还是用DDPM中的类比来说，就是“拆楼”和“建楼”都被事先划分为了T步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。为此，我们用下述SDE描述前向过程（“拆楼”）： [公式] 相信很多读者都对SDE很陌生，笔者也只是在硕士阶段刚好接触过一段时间，略懂皮毛。不过不懂不要紧，我们只需要将它看成是下述离散形式在 [Math] 时的极限： [公式] 再直白一点，如果假设拆楼需要1天，那么拆楼就是 [Math] 从 t=0 到 t=1 的变化过程，每一...

#SDE #diffusion #Generating Model

READ

FLASH：高效Transformer设计

NLP

2026-01-11

概述本文介绍一个比较有意思的高效Transformer工作——来自Google的《Transformer Quality in Linear Time》，经过细读之后，笔者认为论文里边真算得上是“惊喜满满”了～什么样的结果值得我们用“惊喜”来形容？有没有言过其实？我们不妨先来看看论文做到了什么： 1. 提出了一种新的Transformer变体，它依然具有二次的复杂度，但是相比标准的Transformer，它有着更快的速度、更低的显存占用以及更好的效果； 1. 提出一种新的线性化Transformer方案，它不但提升了原有线性Attention的效果，还保持了做Decoder的可能性，并且做Decoder时还能保持高效的训练并行性。说实话，笔者觉得做到以上任意一点都是非常难得的，而这篇论...

#Linear Attention #transformer

READ

Stable Diffusion 3

Generative Model

2026-01-11

🔖 https://stability.ai/news/stablediffusion3researchpaper 概述 SD3 模型与训练策略改进细节 SD3除了将去噪网络从 UNet 改成 DiT 外，SD3 还在模型结构与训练策略上做了很多小改进：改变训练时噪声采样方法将一维位置编码改成二维位置编码提升 VAE 隐空间通道数对注意力 QK 做归一化以确保高分辨率下训练稳定本文会简单介绍这些改进。论文阅读核心贡献介绍 Stable Diffusion 3 (SD3) 的文章标题为 Scaling Rectified Flow Transformers for HighResolution Image Synthesis。与其说它是一篇技术报告，更不如说它是一篇论文，因为它...

#Generating Model #diffusion #flow

READ

状态空间模型SSM到Mamba

NLP

2026-01-11

概述 SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的 S4，不算太老，而SSM最新最火的变体大概是Mamba。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样RWKV、RetNet还有此前LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。另外值得一提的是，SSM代表作HiPPO、S4、Mam...

#NLP #Linear Attention

READ

Seed Thinking

Large Model

2026-01-11

SeedThinkingv1.5 SeedThinkingv1.5 是 ByteDance Seed 团队开发的一个先进推理模型，采用 MixtureofExperts (MoE) 架构，具有 200B 总参数和 20B 激活参数。该模型的核心创新在于其"思考后回答"的机制，在数学、编程、科学推理等任务上取得了卓越的性能。相比DeepSeek R1 ，在很多数据指标上都取得了一定程度的进步。数据训练数据分为两大类：可验证问题（有明确答案）和不可验证问题（无明确答案）。模型的推理能力主要来自第一部分，并能泛化到第二部分。可验证问题数据可验证数据主要包含 STEM数据，编程数据，以及逻辑推理数据 STEM 数据编程数据逻辑推理数据不可验证问题数据这其中的数据主要包含需要基于人类...

#LLM

READ

生成理解统一模型概述

Large Model

2026-01-11

Chameleon：生成理解统一模型的开山之作 🔖 https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixedmodal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像...

#Large Model #VLM #LLM

READ

混合精度训练

Large Model

2026-01-11

通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。浮点数据类型浮点数据类型主要分为双精度（FP64）、单精度（FP32）、半精度（FP16）。在神经网络模型的训练过程中，一般默认采用单精度（FP32）浮点数据类型，来表示网络模型权重和其他参数。在了解混合精度训练之前，这里简单了解浮点数据类型。根据IEEE二进制浮点数算术标准（IEEE 754）的定义，浮点数据类型分为双精度（FP64）、单精度（FP32）、半精度（FP16）三种，其中每一种都有三个不同的...

#Acceleration

READ

LLaMA 2

Large Model

2026-01-11

简介模型结构 32K词表大小 2T训练数据 4K上下文长度模型种类：7B、13B、70B(用了GQA) LLaMA 2Chat：三个版本——7B 13B 70B 同时 Meta 还发布了 LLaMA 2CHAT，其是基于 LLAMA 2 针对对话场景微调的版本，同样 7B、13B 和 70B 参数三个版本，具体的训练方法与ChatGPT类似 1. 先是监督微调LLaMA2得到SFT版本 (接受了成千上万个人类标注数据的训练，本质是问题答案对 ) 1. 然后使用人类反馈强化学习(RLHF)进行迭代优化先训练一个奖励模型然后在奖励模型/优势函数的指引下，通过拒绝抽样(rejection sampling)和近端策略优化(PPO)的方法迭代模型的生成策略 LLAMA 2 的性能表现更加接近...

#LLM

READ

Kimi k1.5—CoT强化训练

Large Model

2026-01-11

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#Policy Gradient #Reinforcement Learning #LLM #Large Model

READ

LinearAttention 概述

NLP

2026-01-11

概述众所周知，尽管基于Attention机制的Transformer类模型有着良好的并行性能，但它的空间和时间复杂度都是 [Math] 级别的， n 是序列长度，所以当 n 比较大时Transformer模型的计算量难以承受。近来，也有不少工作致力于降低Transformer模型的计算量，比如模型剪枝、量化、蒸馏等精简技术，又或者修改Attention结构，使得其复杂度能降低到 [Math] 甚至 [Math] 。改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如OpenAI的Sparse Attention，通过“只保留小区域内的数值、强制让大部分注意力为零”的方式，来减少Attention的计算量。经过特殊设计之后，Attention矩阵的大部分元素都是0，因此理论上它也能节...

#transformer #Linear Attention

READ

#

!

INCOMING TRANSMISSION

LLM Finetuning— Lora

Transformers are RNNs

SDE和扩散模型

FLASH：高效Transformer设计

Stable Diffusion 3

状态空间模型SSM到Mamba

Seed Thinking

生成理解统一模型概述

混合精度训练

LLaMA 2

Kimi k1.5—CoT强化训练

LinearAttention 概述