知识库 - Orange

python生成器和迭代器

杂七杂八

2026-03-27

生成器什么是生成器？通过列表生成式，我们可以直接创建一个列表，但是，受到内存限制，列表容量肯定是有限的，而且创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间，在Python中，这种一边循环一边计算的机制，称为生成器：generator 生成器是一个特殊的程序，可以被用作控制循环的迭代行为，python中生成器是迭代器的一种，使用 yield 返回值函数，每次调用 yield 会暂停，而可以使用 next() 函数和 send() 函数恢复生成器。生成器类似于返回值为数组的一个函数，这个函数可以接受参数，可以被调用，但是，不同于一般的函数会一次性返回包括了所有数值的数组，生成器一次只能产生一个值，这样消耗的内存数量将大大减小，而且允许调用函数可以很快的处理前几个返回值，因此生成器看起来像是一个函数，但是表现得却像是迭代器 python中的生成器...

#python

READ

Python的内存回收机制

杂七杂八

2026-03-27

概述 python采用的是引用计数机制为主，标记-清除和分代收集两种机制为辅的策略。引用计数 Python语言默认采用的垃圾收集机制是『引用计数法 Reference Counting 』，该算法最早George E. Collins在1960的时候首次提出，50年后的今天，该算法依然被很多编程语言使用。『引用计数法』的原理是：每个对象维护一个 ob_ref 字段，用来记录该对象当前被引用的次数，每当新的引用指向该对象时，它的引用计数 ob_ref 加 1 ，每当该对象的引用失效时计数 ob_ref 减 1 ，一旦对象的引用计数为 0 ，该对象立即被回收，对象占用的内存空间将被释放。它的缺点是需要额外的空间维护引用计数，这个问题是其次的，不过最主要的问题是它不能解决对象的“循环引用”，因此，也有很多语言比如Java并没有采用该算法做来垃圾的收集机制。引用计数案例 import sys class A(): def __init__(self): '''初始化对象''' print('object born id:%s'...

#python

READ

Python的列表和元组

杂七杂八

2026-03-27

列表和元组总结列表和元组都是一个可以放置任意数据类型的有序集合，他们有以下共同点列表和元组中的元素可以任意，并且都可以嵌套。列表和元组都支持索引，且都支持负数索引，-1表示最后一个元素，-2表示倒数第二个元素列表和元组都支持切片操作都支持in关键词都可以使用 .index() 、 .count() 、 sorted() 和 enumerate() 等方法两者之间的相互转换，list()和tuple() 但是他们也是有区别列表是动态的，长度大小不固定，可以随意地增加、删减或者改变元素（mutable）元组是静态的，长度大小不固定，无法增删改，想要对已有的元组做任何“改变”，就只能开辟一块内存，创建新的元组列表和元组存储方式的差异由于列表是动态的；元组是静态的，不可变的。这样的差异，势必会影响两者存储方式。我们可以来看下面的例子： >>> l = [1, 2, 3] >>> l.__sizeof__() 64 >>> tup = (1, 2, 3) >>> tup.__sizeof__() 48...

#python

READ

QwenVL 系列

Large Model

2026-03-18

Qwen-VL 模型框架 Qwen-VL的整体网络架构由三个组件组成： LLM：使用 Qwen-7B 的预训练权重进行初始化。视觉编码器：Qwen-VL 的可视化编码器使用ViT 架构，使用 Openclip 的 ViT-bigG 的预训练权重进行初始化。在训练和推理过程中，输入图像的大小都会调整为特定分辨率。视觉编码器通过以 14 步幅将图像分割成块来处理图像，生成一组图像特征。位置感知视觉语言适配器：为了缓解长图像特征序列带来的效率问题，Qwen-VL 引入了一种视觉语言适配器来压缩图像特征。类似QFormer，该适配器包括一个随机初始化的单层交叉注意力模块。使用一组可训练向量（嵌入）作为query，并将视觉编码器中的图像特征作为交叉注意力作的key。该机制将视觉特征序列压缩到固定长度 256。图像输入图像不会直接以像素形式喂给语言模型（LLM）。典型流程是： Visual Encoder ：把图片编码成一串视觉特征（embedding/feature sequence）。 Adapter ：把视觉特征映射到语言模型可接入的表征空间/维度。最终得到：...

#Large Model #VLM

READ

投机采样之EAGLE

Large Model

2026-03-12

概述 MTP（Multi-token Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1-token的生成，转变成multi-token的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个token，实现成倍的加速来提升推理性能。侧重训练时提高效率。比如论文“Better & Faster Large Language Models via Multi-token...

#Large Model #Acceleration

READ

投机采样之Medusa

Large Model

2026-03-12

概述 https://github.com/FasterDecoding/Medusa Medusa 是自投机领域较早的一篇工作，对后续工作启发很大，其主要思想是 multi-decoding head + tree attention + typical acceptance(threshold)。Medusa 没有使用独立的草稿模型，而是在原始模型的基础上增加多个解码头（MEDUSA heads），并行预测多个后续 token。正常的LLM只有一个用于预测 \(t\) 时刻token的head。Medusa 在 LLM 的最后一个 Transformer层之后保留原始的 LM Head，然后额外增加多个（假设是 \(k\) 个）可训练的Medusa Head（解码头），分别负责预测 \(t+1,t+2,...,\) 和 \(t+k\) 时刻的不同位置的多个 Token。 Medusa 让每个头生成多个候选 token，而非像投机解码那样只生成一个候选。然后将所有的候选结果组装成多个候选序列，多个候选序列又构成一棵树。再通过树注意力机制并行验证这些候选序列。原理...

#LLM #Acceleration

READ

投机采样

Large Model

2026-03-10

概述投机解码（Speculative Decoding）也叫预测解码/投机采样，它会利用小模型来预测大型模型的行为，从而提升模型在解码（decoding）阶段的解码效率问题，加速大型模型的执行。其核心思路如下图所示，首先以低成本的方式（以小模型为主，也有多头，检索，Early Exit 等方式）快速生成多个候选 Token（串行序列、树、多头树等），然后通过一次并行验证阶段快速验证多个 Token的正确性，只要平均每个 Step 验证的 Token 数 > 1，就可以一次性生成多个token，进而减少总的 Decoding 步数，实现加速的目的。下图左侧是自回归解码模型，右侧是投机解码机制。从本质上来说，投机解码希望在推理阶段在不大幅度改变模型的情况下，通过更好利用冗余算力来并行"投机"地猜测出模型接下来要输出的token。作为对比，也有一种方案是通过路由的方式组合多个不同规模和性能的模型。路由方式在调用之前已经确定好需要调用哪个模型，直到调用结束。而投机解码在一个 Query 内会反复调用大小模型。背景我们都知道，生成式 LLM 大部分是 Decoder-only...

#LLM #Acceleration

READ

Structured Generation

Large Model

2026-03-10

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有：数据处理。主要功能为a -> b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； Agent 。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor ，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行structured generation的流程如下：定义schema，包括结构、注释还有例子； Kor用特定的 prompt template ，将用户提供的schema和待处理的raw text，组装成prompt；将prompt发送给LLM，借助其通用的In...

#Acceleration #Large Model #LLM

READ

Kimi

Large Model

2026-03-10

k1.5—CoT强化训练概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 \(D = \{(x_i, y^*_i)\}_{i=1}^n\) ，其中包含问题 \(x_i\) 和对应的真实答案 \(y^*_i\) ，目标是训练一个策略模型 \(\pi_\theta\) 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 \(z = (z_1, z_2, ..., z_m)\) 来连接问题 \(x\) 和答案 \(y\) ，每个 \(z_i\) 是解决问题的重要中间步骤。当解决问题 \(x\) 时，思维 \(z_t \sim \pi_\theta(\cdot|x, z_1, ..., z_{t-1})\) 被自回归采样，最终答案 \(y \sim \pi_\theta(\cdot|x, z_1, ..., z_m)\) 。强化学习目标基于真实答案 \(y^*\) ，分配一个值 \(r(x, y, y^*)...

#Large Model #LLM #Reinforcement Learning #Policy Gradient

READ

混合精度训练

Large Model

2026-03-10

通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。浮点数据类型浮点数据类型主要分为双精度（FP64）、单精度（FP32）、半精度（FP16）。在神经网络模型的训练过程中，一般默认采用单精度（FP32）浮点数据类型，来表示网络模型权重和其他参数。在了解混合精度训练之前，这里简单了解浮点数据类型。根据IEEE二进制浮点数算术标准（IEEE 754）的定义，浮点数据类型分为双精度（FP64）、单精度（FP32）、半精度（FP16）三种，其中每一种都有三个不同的位来表示。 FP64表示采用8个字节共64位，来进行的编码存储的一种数据类型； FP32表示采用4个字节共32位来表示； FP16则是采用2字节共16位来表示。如图所示：从图中可以看出，与FP32相比，FP16的存储空间是FP32的一半，FP32则是FP16的一半。主要分为三个部分：...

#Acceleration

READ

#

!

INCOMING TRANSMISSION

python生成器和迭代器

Python的内存回收机制

Python的列表和元组

QwenVL 系列

投机采样之EAGLE

投机采样之Medusa

投机采样

Structured Generation

Kimi

混合精度训练