知识库 - Orange

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

Large Model

2026-01-11

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

PrefixTuning Paper: 2021.1 Optimizing Continuous Prompts for GenerationGithub：https://github.com/XiangLi1999/PrefixTuningPrompt: Continus Prefix PromptTask & Model：BART(Summarization), GPT2(Table2Text) 最早提出Prompt微调的论文之一，其实是可控文本生成领域的延伸，因此只针对摘要和Table2Text这两个生成任务进行了评估。 PrefixTuning可以理解是CTRL模型的连续化升级版，为了生成不同领域和话题的文本，CTRL是在预训练阶段在输入文本前加入了control code，例如好评...

#Fine-tuning #LLM

READ

LLM Finetuning— Adapter Tuning

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 Adapter tuning Adapter ...

#LLM #Fine-tuning

READ

大模型训练基础

Large Model

2026-01-11

梯度检查点（Gradient Checkpointing）大模型的参数量巨大，即使将batch_size设置为1并使用梯度累积的方式更新，也仍然会OOM。原因是通常在计算梯度时，我们需要将所有前向传播时的激活值保存下来，这消耗大量显存。还有另外一种延迟计算的思路，丢掉前向传播时的激活值，在计算梯度时需要哪部分的激活值就重新计算哪部分的激活值，这样做倒是解决了显存不足的问题，但加大了计算量同时也拖慢了训练。梯度检查点（Gradient Checkpointing）在上述两种方式之间取了一个平衡，这种方法采用了一种策略选择了计算图上的一部分激活值保存下来，其余部分丢弃，这样被丢弃的那一部分激活值需要在计算梯度时重新计算。下面这个动图展示了一种简单策略：前向传播过程中计算节点的激活值并保存...

#NLP #Large Model

READ

Llama 3.1

Large Model

2026-01-11

🔖 https://ai.meta.com/research/publications/thellama3herdofmodels/ 简介本文归纳llm的训练分为两个主要阶段：预训练阶段 pretraining，模型通过使用简单的任务如预测下一个词或caption进行大规模训练后训练阶段 posttraining，模型经过调整以遵循指令、与人类偏好保持一致，并提高特定能力, 例如编码和推理。 Llama 3.1 发布，在 15.6T 多语言 tokens 上训练，支持多语言，编程，推理和工具使用。新模型支持 128K tokens 长度的上下文。最大的旗舰模型参数量为 405B，效果达到了闭源模型的 SOTA。模型结构 Llama 3.1 的模型和 Llama 3 是一样的，只是做了...

#LLM

READ

Llama系列

Large Model

2026-01-11

LLaMA 一直致力于LLM模型研究的国外TOP 3大厂除了OpenAI、Google，便是Meta(原来的Facebook) Meta曾第一个发布了基于LLM的聊天机器人——BlenderBot 3，但输出不够安全，很快下线；再后来，Meta发布一个专门为科学研究设计的模型Galactica，但用户期望过高，发布三天后又下线 23年2.24日，Meta通过论文《LLaMA: Open and Efficient Foundation Language Models》发布了自家的大型语言模型LLaMA，有多个参数规模的版本(7B 13B 33B 65B)，并于次月3.8日被迫开源 LLaMA只使用公开的数据(总计1.4T即1,400GB的token，其中CommonCrawl的数据占比67%...

#LLM

READ

LLM中的幻觉问题

Large Model

2026-01-11

概述在大型语言模型（LLM）中，幻觉（Hallucination）通常指模型生成不实、虚构、不一致或无意义的内容。本文将幻觉问题聚焦于模型输出未被上下文或世界知识所支撑的情况。幻觉的分类幻觉主要分为两类： 1. 内在幻觉（Incontext hallucination）：模型输出和上下文（prompt+input）不一致。 1. 外在幻觉（Extrinsic hallucination）：不符合事实知识。具体来说，模型输出应基于预训练数据集。由于预训练数据规模庞大，验证成本高昂，因此需要确保模型输出：后文重点关注外在幻觉问题。幻觉产生的原因预训练数据问题预训练数据量巨大，通常从公开互联网爬取，数据中存在过时、缺失或错误的信息，模型通过最大化对数似然进行记忆，可能错误地学习这些信...

#LLM

READ

Packing & rmpad

Large Model

2026-01-11

简介基于lmmsengine中的训练时对数据packing操作以及use_rmpad消除了所有padding计算的逻辑 Packing 总体逻辑基于packing_length 将不同的数据填充到一个sequence中，具体来说在Datsset中，如下代码所示，将不同的数据append到buffer列表中 [代码] 在 Collator 组合成batch的形式传入到模型的输入，这里还是将数据padding [代码] rmpad 项目中，是以 monkey patch的形式（也就是打热补丁）替换rmpad操作的，如下代码所示，主要就是替换模型中的forward操作 [代码] Qwen3VLModel.forward 显式调用了 _unpad_input。它计算了非 padding 元...

#Large Model

READ

从MHA、MQA、GQA到MLA

Large Model

2026-01-11

DeepSeekV2的发布引起了大家的热烈讨论。首先，最让人哗然的是1块钱100万token的价格，普遍比现有的各种竞品API便宜了两个数量级，以至于有人调侃“这个价格哪怕它输出乱码，我也会认为这个乱码是一种艺术”；其次，从模型的技术报告看，如此便宜的价格背后的关键技术之一是它新提出的MLA（Multihead Latent Attention），这是对GQA的改进，据说能比GQA更省更好，也引起了读者的广泛关注。接下来，本文将跟大家一起梳理一下从MHA、MQA、GQA到MLA的演变历程，并着重介绍一下MLA的设计思路。 MHA MHA（MultiHead Attention），也就是多头注意力，是开山之作《Attention is all you need》所提出的一种Attention...

#LLM

READ

Flash-Attention

Large Model

2026-01-11

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 SelfAtention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 [Math] ）： [公式] 其中： Q, K, V, O 都是形...

#Large Model #Acceleration

READ

DPO(Direct Preference Optimization)

Reinforcement Learning

2026-01-11

背景 RLHF 通常包括三个阶段：有监督微调（SFT）奖励建模阶段（Reward Model） RL微调阶段直接偏好优化（DPO）传统的RLHF方法分两步走： 1. 先训练一个奖励模型来判断哪个回答更好 1. 然后用强化学习让语言模型去最大化这个奖励这个过程很复杂，就像绕了一大圈：先学习"什么是好的"，再学习"如何做好"。 DPO发现了一个数学上的捷径： 1. 关键发现：对于任何奖励函数，都存在一个对应的最优策略（语言模型）；反过来说，任何语言模型也隐含着一个它认为最优的奖励函数 1. 直接优化：与其先训练奖励模型再训练语言模型，不如直接训练语言模型，让它自己内化"什么是好的" 1. 数学转换：DPO将"学习判断好坏"和"学习生成好内容"这两个任务合二为一，通过一个简单的数学变换...

#LLM #Reinforcement Learning

READ

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#Large Model #Reinforcement Learning #VLM

READ

微调LLaMA

Large Model

2026-01-11

Stanford Alpaca 结合英文语料通过Self Instruct方式微调LLaMA 7B Stanford Alpaca简介 2023年3月中旬，斯坦福的Rohan Taori等人发布Alpaca(中文名：羊驼)：号称只花100美元，人人都可微调Meta家70亿参数的LLaMA大模型(即LLaMA 7B)，具体做法是通过52k指令数据，然后在8个80GB A100上训练3个小时，使得Alpaca版的LLaMA 7B在单纯对话上的性能比肩GPT3.5(textdavinci003)，这便是指令调优LLaMA的意义所在论文《Alpaca: A Strong OpenSource InstructionFollowing Model》 GitHub地址：https://github.c...

#LLM

READ

#

!

INCOMING TRANSMISSION

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

LLM Finetuning— Adapter Tuning

大模型训练基础

Llama 3.1

Llama系列

LLM中的幻觉问题

Packing & rmpad

从MHA、MQA、GQA到MLA

Flash-Attention

DPO(Direct Preference Optimization)

Kimi-VL

微调LLaMA