知识库 - Orange

Flash-Attention

Large Model

2026-01-11

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 SelfAtention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 [Math] ）： [公式] 其中： Q, K, V, O 都是形...

#Large Model #Acceleration

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#CNN #DL基础

READ

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#Large Model #Reinforcement Learning #VLM

READ

计算几何

Algorithm

2026-01-11

计算几何（Computational Geometry），是一系列使用计算机解决几何问题的算法。与解析几何相比，计算几何更适合计算机运算，精度较高，运算速度较快，并且易于编写。浮点误差程序设计中，考虑到浮点数 double 有精度误差，在比较时，通常允许一定的误差，即对于两个数 a 、 b ，如果 [Math] ，则认为 a=b 。一般根据题目要求， d （代码中命名为 EPS）取一个较小值，如 10^{8} 。 [代码] 向量向量（vector）是一个有大小和方向的量，在几何中，它被表示为带箭头的线段。向量可以用起点和终点的坐标来表示 —— 从点 A到点B 的向量表示为 [Math] 。向量的书写，两个大写字母上加一个箭头（表示方向） [Math] 向量没有位置，即向量可以在平面内...

#Algorithm

READ

DeepSpeed

Large Model

2026-01-11

背景：大模型 vs. GPU Memory 大模型最大的特点是模型参数多，训练时需要很大的GPU显存。举个例子，帮助大家的理解：对于一个常见的7B规模参数的大模型（如LLaMA-2 7B），基于16-bit混合精度训练时，在仅考虑模型参数、梯度、优化器情况下，显存占用就有112GB，显然目前A100、H100这样主流的显卡单张是放不下的，更别提国内中小厂喜欢用的A6000/5000、甚至消费级显卡。上面的例子中，参数占GPU 显存近 14GB（每个参数2字节）。再考虑到训练时梯度的存储占14GB（每个参数对应一个梯度，也是2字节）、优化器Optimizer假设是用目前主流的AdamW则是8...

#Large Model

READ

生成理解统一模型概述

Large Model

2026-01-11

Chameleon：生成理解统一模型的开山之作 🔖 https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixedmodal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像...

#LLM #VLM #Large Model

READ

Dify安装

Large Model

2026-01-11

🔖 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted Docker 按照官方文档说明配置即可 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted/dockercompose 源码安装参考官方步骤，需要补充一些内容 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted/localsourcecode 在启动API 服务之前需要安装PostgreSQL数据库和Redis Postgres安装配置(非Root) 下载二进制编译好的安装包，下载地址在这里解压并创建data目录初始化d...

#Large Model

READ

混合精度训练

Large Model

2026-01-11

通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。浮点数据类型浮点数据类型主要分为双精度（FP64）、单精度（FP32）、半精度（FP16）。在神经网络模型的训练过程中，一般默认采用单精度（FP32）浮点数据类型，来表示网络模型权重和其他参数。在了解混合精度训练之前，这里简单了解浮点数据类型。根据IEEE二进制浮点数算术标准（IEEE 754）的定义，浮点数据类型分为双精度（FP64）、单精度（FP32）、半精度（FP16）三种，其中每一种都有三个不同的...

#Acceleration

READ

164. 最大间距（乱序数组排序后最大间距）

Algorithm

2026-01-11

题目给定一个无序的数组，找出数组在排序之后，相邻元素之间最大的差值。如果数组元素个数小于 2，则返回 0。 Example 1: [代码] 解题思路：如果进行排序，这里会超时。采用桶排序排序算法的思想，可以在线性时间解决。 1. 首先建立桶，每个桶中只需要存放这个桶中元素的最大值和最小值。 1. 我们期望将数组中的各个数等距离分配，也就是每个桶的长度相同，也就是对于所有桶来说，桶内最大值减去桶内最小值都是一样的。可以当成公式来记。 1. 确定桶的数量，最后的加一保证了数组的最大值也能分到一个桶。为什么需要这样规定桶的尺寸呢？因为这样可以让最大的间距的两个元素在两个不同的桶中。可以证明一下，因为我们用元素范围之差除以元素个数，所以桶的尺寸就是平均的元素间距，显然最大间距的两个元素不可能...

#Algorithm

READ

39&40. 组合总和

Algorithm

2026-01-11

1. 可以重复选取给定一个无重复元素的数组 candidates 和一个目标数 target ，找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的数字可以无限制重复被选取。画出树状搜索图如下，为了去除重复的情况，我们需要按照某种顺序搜索，具体做法是：每一次搜索的时候，设置下一轮搜索的起点 [代码] 2. 不能被重复选取与上面的区别在于 1. index每次不要重复搜索，而是去寻找下一个 1. 排除重复的元素 [代码]

#Algorithm

READ

Kimi k1.5—CoT强化训练

Large Model

2026-01-11

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#LLM #Large Model #Reinforcement Learning #Policy Gradient

READ

Structured Generation

Large Model

2026-01-11

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有： 1. 数据处理。主要功能为a b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； 1. Agent。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行...

#LLM #Large Model

READ

#

!

INCOMING TRANSMISSION

Flash-Attention

上采样、反卷积与上池化

Kimi-VL

计算几何

DeepSpeed

生成理解统一模型概述

Dify安装

混合精度训练

164. 最大间距（乱序数组排序后最大间距）

39&40. 组合总和

Kimi k1.5—CoT强化训练

Structured Generation