知识库 - Orange

Autograd

Python

2026-01-11

PyTorch中，所有神经网络的核心是 autograd 包。 autograd 包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义(definebyrun）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的. 让我们用一些简单的例子来看看吧。张量 torch.Tensor 是这个包的核心类。如果设置它的属性 .requires_grad 为 True，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用 .backward()，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到.grad属性. 要阻止一个张量被跟踪历史，可以调用 .detach() 方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。为了防止跟踪历史记录(和使用内存），...

#pytorch

READ

人脸识别概述

Computer Vision

2026-01-11

简介一个完整的人脸识别系统包含以下几个模块 Face Detection: 人脸检测 Face Alignment：基于人脸关键点坐标对齐到正则坐标系下坐标 Face Recognition：基于对齐人脸进行识别人脸识别的算法流程人脸的识别流程：面部姿态处理(处理姿态，亮度，表情，遮挡)，特征提取，人脸比对。面部处理 face processing 这部分主要对姿态（主要）、亮度、表情、遮挡进行处理，可提升FR模型性能主要包含两种处理方式： 1. "Onetomany Augmentation": 从单个图像生成不同姿态的图像，使模型学习到姿态不变性的表示 1. "Manytoone Normalization": 从多个不同姿态的图像中恢复人脸图像的标准视图特征提取 Backb...

#人脸识别 #CV

READ

nn 与 nn.functional

Python

2026-01-11

相同点 nn.Xxx和nn.functional.xxx的实际功能是相同的，即nn.Conv2d和nn.functional.conv2d 都是进行卷积，nn.Dropout 和nn.functional.dropout都是进行dropout，。。。。。；运行效率也是近乎相同。 nn.functional.xxx是函数接口，而nn.Xxx是nn.functional.xxx的类封装，并且nn.Xxx都继承于一个共同祖先nn.Module。这一点导致nn.Xxx除了具有nn.functional.xxx功能之外，内部附带了nn.Module相关的属性和方法，例如train(), eval(),load_state_dict, state_dict 等。不同点两者的调用方式不同。 nn.X...

#pytorch

READ

混合精度训练

Large Model

2026-01-11

通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。浮点数据类型浮点数据类型主要分为双精度（FP64）、单精度（FP32）、半精度（FP16）。在神经网络模型的训练过程中，一般默认采用单精度（FP32）浮点数据类型，来表示网络模型权重和其他参数。在了解混合精度训练之前，这里简单了解浮点数据类型。根据IEEE二进制浮点数算术标准（IEEE 754）的定义，浮点数据类型分为双精度（FP64）、单精度（FP32）、半精度（FP16）三种，其中每一种都有三个不同的...

#Acceleration

READ

投机采样之Medusa

Large Model

2026-01-11

概述 Medusa 是自投机领域较早的一篇工作，对后续工作启发很大，其主要思想是 multidecoding head + tree attention + typical acceptance(threshold)。Medusa 没有使用独立的草稿模型，而是在原始模型的基础上增加多个解码头（MEDUSA heads），并行预测多个后续 token。正常的LLM只有一个用于预测 t 时刻token的head。Medusa 在 LLM 的最后一个 Transformer层之后保留原始的 LM Head，然后额外增加多个（假设是 k 个）可训练的Medusa Head（解码头），分别负责预测 ...

#LLM #Acceleration

READ

投机采样之EAGLE

Large Model

2026-01-11

概述 MTP（Multitoken Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1token的生成，转变成multitoken的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个...

#Large Model #Acceleration

READ

投机采样

Large Model

2026-01-11

概述投机解码（Speculative Decoding）也叫预测解码/投机采样，它会利用小模型来预测大型模型的行为，从而提升模型在解码（decoding）阶段的解码效率问题，加速大型模型的执行。其核心思路如下图所示，首先以低成本的方式（以小模型为主，也有多头，检索，Early Exit 等方式）快速生成多个候选 Token（串行序列、树、多头树等），然后通过一次并行验证阶段快速验证多个 Token的正确性，只要平均每个 Step 验证的 Token 数 1，就可以一次性生成多个token，进而减少总的 Decoding 步数，实现加速的目的。下图左侧是自回归解码模型，右侧是投机解码机制。从本质上来说，投机解码希望在推理阶段在不大幅度改变模型的情况下，通过更好利用冗余算力来并行"投机"地...

#LLM #Acceleration

READ

Softmax-based Loss的演化史

Computer Vision

2026-01-11

近期，人脸识别研究领域的主要进展之一集中在了 Softmax Loss 的改进之上；本文从两种主要的改进方式——做归一化以及增加类间 margin——展开梳理，介绍了近年来基于 Softmax 的 Loss 的研究进展。 Softmax简介 Softmax Loss 因为其易于优化，收敛快等特性被广泛应用于图像分类领域。然而，直接使用 softmax loss 训练得到的 feature 拿到 retrieval，verification 等“需要设阈值”的任务时，往往并不够好。这其中的原因还得从 Softmax 的本身的定义说起，Softmax loss 在形式上是 softmax 函数加上交叉熵损失，它的目的是让所有的类别在概率空间具有最大的对数似然，也就是保证所有的类别都能分类正确，...

#人脸识别 #CV

READ

Pytorch 报错汇总

Python

2026-01-11

unsupported operation: more than one element of the writtento tensor refers to a single memory location. Please clone() the tensor before performing the operation. 出现这种情况可能是在.backward()之前使用了 .expand()或者.expand_as()函数。具体原因可以看看这个老哥的提问：link 解决办法：在 .expand()或者.expand_as()函数后面添加.clone()就可以解决。

#pytorch

READ

#

!

INCOMING TRANSMISSION

Autograd

人脸识别概述

nn 与 nn.functional

混合精度训练

投机采样之Medusa

投机采样之EAGLE

投机采样

Softmax-based Loss的演化史

Pytorch 报错汇总