知识库 - Orange

DDP

Python

2026-01-11

Quick Start 一个最简单的DDP Pytorch例子！环境准备 PyTorch(gpu)=1.5，python=3.6 推荐使用官方打好的PyTorch docker，避免乱七八糟的环境问题影响心情。 [代码] 代码单GPU代码 [代码] 加入DDP的代码 [代码] DDP的基本原理大白话原理假如我们有N张显卡， 1. （缓解GIL限制）在DDP模式下，会有N个进程被启动，每个进程在一张卡上加载一个模型，这些模型的参数在数值上是相同的。 1. （RingReduce加速）在模型训练时，各个进程通过一种叫RingReduce的方法与其他进程通讯，交换各自的梯度，从而获得所有进程的梯度； 1. （实际上就是Data Parallelism）各个进程用平均后的梯度更新自己的参数，...

#pytorch

READ

Tensorflow-@tf_export

Python

2026-01-11

@tf_export为函数取了个名字！ Tensorflow经常看到定义的函数前面加了@tf_export。例如，tensorflow/python/platform/app.py中有： [代码] 首先，@tf_export是一个修饰符。修饰符的本质是一个函数 tf_export的实现在tensorflow/python/util/tf_export.py中： [代码] 等号的右边的理解分两步： 1. functools.partial 1. api_export functools.partial是偏函数,它的本质简而言之是为函数固定某些参数。如：functools.partial(FuncA, p1)的作用是把函数FuncA的第一个参数固定为p1；又如functools.partial(...

#pytorch

READ

VQ-VAE

Generative Model

2026-01-11

简介作为一个自编码器，VQVAE的一个明显特征是它编码出的编码向量是离散的，换句话说，它最后得到的编码向量的每个元素都是一个整数，这也就是“Quantised”的含义，我们可以称之为“量子化”（跟量子力学的“量子”一样，都包含离散化的意思）。明明整个模型都是连续的、可导的，但最终得到的编码向量却是离散的，并且重构效果看起来还很清晰（如文章开头的图），这至少意味着VQVAE会包含一些有意思、有价值的技巧，值得我们学习一番。首先，VQVAE其实就是一个AE（自编码器）而不是VAE（变分自编码器），我不知道作者出于什么目的非得用概率的语言来沾VAE的边，这明显加大了读懂这篇论文的难度。其次，VQVAE的核心步骤之一是StraightThrough Estimator，这是将引变量离散化后的优...

#Generating Model #VAE

READ

Flash-Attention

Large Model

2026-01-11

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 SelfAtention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 [Math] ）： [公式] 其中： Q, K, V, O 都是形...

#Large Model #Acceleration

READ

Autograd

Python

2026-01-11

PyTorch中，所有神经网络的核心是 autograd 包。 autograd 包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义(definebyrun）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的. 让我们用一些简单的例子来看看吧。张量 torch.Tensor 是这个包的核心类。如果设置它的属性 .requires_grad 为 True，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用 .backward()，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到.grad属性. 要阻止一个张量被跟踪历史，可以调用 .detach() 方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。为了防止跟踪历史记录(和使用内存），...

#pytorch

READ

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#VLM #Large Model #Reinforcement Learning

READ

DeepSpeed

Large Model

2026-01-11

背景：大模型 vs. GPU Memory 大模型最大的特点是模型参数多，训练时需要很大的GPU显存。举个例子，帮助大家的理解：对于一个常见的7B规模参数的大模型（如LLaMA-2 7B），基于16-bit混合精度训练时，在仅考虑模型参数、梯度、优化器情况下，显存占用就有112GB，显然目前A100、H100这样主流的显卡单张是放不下的，更别提国内中小厂喜欢用的A6000/5000、甚至消费级显卡。上面的例子中，参数占GPU 显存近 14GB（每个参数2字节）。再考虑到训练时梯度的存储占14GB（每个参数对应一个梯度，也是2字节）、优化器Optimizer假设是用目前主流的AdamW则是8...

#Large Model

READ

nn 与 nn.functional

Python

2026-01-11

相同点 nn.Xxx和nn.functional.xxx的实际功能是相同的，即nn.Conv2d和nn.functional.conv2d 都是进行卷积，nn.Dropout 和nn.functional.dropout都是进行dropout，。。。。。；运行效率也是近乎相同。 nn.functional.xxx是函数接口，而nn.Xxx是nn.functional.xxx的类封装，并且nn.Xxx都继承于一个共同祖先nn.Module。这一点导致nn.Xxx除了具有nn.functional.xxx功能之外，内部附带了nn.Module相关的属性和方法，例如train(), eval(),load_state_dict, state_dict 等。不同点两者的调用方式不同。 nn.X...

#pytorch

READ

生成理解统一模型概述

Large Model

2026-01-11

Chameleon：生成理解统一模型的开山之作 🔖 https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixedmodal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像...

#Large Model #VLM #LLM

READ

Dify安装

Large Model

2026-01-11

🔖 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted Docker 按照官方文档说明配置即可 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted/dockercompose 源码安装参考官方步骤，需要补充一些内容 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted/localsourcecode 在启动API 服务之前需要安装PostgreSQL数据库和Redis Postgres安装配置(非Root) 下载二进制编译好的安装包，下载地址在这里解压并创建data目录初始化d...

#Large Model

READ

混合精度训练

Large Model

2026-01-11

通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。浮点数据类型浮点数据类型主要分为双精度（FP64）、单精度（FP32）、半精度（FP16）。在神经网络模型的训练过程中，一般默认采用单精度（FP32）浮点数据类型，来表示网络模型权重和其他参数。在了解混合精度训练之前，这里简单了解浮点数据类型。根据IEEE二进制浮点数算术标准（IEEE 754）的定义，浮点数据类型分为双精度（FP64）、单精度（FP32）、半精度（FP16）三种，其中每一种都有三个不同的...

#Acceleration

READ

#

!

INCOMING TRANSMISSION

DDP

Tensorflow-@tf_export

VQ-VAE

Flash-Attention

Autograd

Kimi-VL

DeepSpeed

nn 与 nn.functional

生成理解统一模型概述

Dify安装

混合精度训练