知识库 - Orange

Muon优化器

Deep Learning

2026-02-27

随着LLM时代的到来，学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求，而如果对优化器“大动干戈”，那么需要巨大的验证成本。因此，当前优化器的变化，多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。不过，最近推特上一个名为“Muon”的优化器颇为热闹，它声称比AdamW更为高效，且并不只是在Adam基础上的“小打小闹”，而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。算法初探 Muon全称是“MomentUm Orthogonalized by Newton-schulz”，它适用于矩阵参数 \(\boldsymbol{W}\in\mathbb{R}^{n\times m}\) ，其更新规则是 \[\begin{aligned} \boldsymbol{M}_t =&\, \beta\boldsymbol{M}_{t-1} + \boldsymbol{G}_t \\[5pt] \boldsymbol{W}_t =&\, \boldsymbol{W}_{t-1} - \eta_t...

#Large Model #DL基础

READ

函数光滑化：不可导函数的可导逼近

Deep Learning

2026-02-27

一般来说，神经网络处理的东西都是连续的浮点数，标准的输出也是连续型的数字。但实际问题中，我们很多时候都需要一个离散的结果，比如分类问题中我们希望输出正确的类别，“类别”是离散的，“类别的概率”才是连续的；又比如我们很多任务的评测指标实际上都是离散的，比如分类问题的正确率和F1、机器翻译中的BLEU，等等。还是以分类问题为例，常见的评测指标是正确率，而常见的损失函数是交叉熵。交叉熵的降低与正确率的提升确实会有一定的关联，但它们不是绝对的单调相关关系。换句话说，交叉熵下降了，正确率不一定上升。显然，如果能用正确率的相反数做损失函数，那是最理想的，但正确率是不可导的（涉及到 \(\text{argmax}\) 等操作），所以没法直接用。这时候一般有两种解决方案；一是动用强化学习，将正确率设为奖励函数，这是“用牛刀杀鸡”的方案；另外一种是试图给正确率找一个光滑可导的近似公式。本文就来探讨一下常见的不可导函数的光滑近似，有时候我们称之为“光滑化”，有时候我们也称之为“软化”。 max 后面谈到的大部分内容，基础点就是max操作的光滑近似，我们有：...

#DL基础

READ

Dropout原理与实现

Deep Learning

2026-02-27

Dropout的运作方式在神经网络的训练过程中，对于一次迭代中的某一层神经网络，先随机选择中的一些神经元并将其临时隐藏(丢弃)，然后再进行本次训练和优化。在下一次迭代中，继续随机隐藏一些神经元，如此直至训练结束。由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。在训练时，每个神经单元以概率 \(𝑝\) 被保留(Dropout丢弃率为 \(1−𝑝\) )；在预测阶段（测试阶段），每个神经单元都是存在的，权重参数 \(𝑤\) 要乘以 \(𝑝\) ，输出是： \(𝑝𝑤\) 。示意图如下：预测阶段需要乘上 \(p\) 的原因：前一层隐藏层的一个神经元在dropout之前的输出是 \(x\) ，训练时dropout之后的期望值是 \(E=px+0*(1−p)\) ; 在预测阶段该层神经元总是激活，为了保持同样的输出期望值并使下一层也得到同样的结果，需要调整 \(x\rightarrow px\) . 其中 \(p\) 是Bernoulli分布（0-1分布）中值为1的概率。 Dropout 实现如前文所述，在训练时随机隐藏部分神经元，在预测时必须要乘上p。代码如下：...

#DL基础

READ

池化层总结

Deep Learning

2026-02-27

池化：池化函数使用某一位置的相邻输出的总体统计特征来代替网络在该位置的输出。本质是降采样，可以大幅减少网络的参数量。常用的池化有：均值池化（mean pooling）、最大池化（max pooling）。 pooling操作没有参数量！！！下面来说说这两种池化的区别与作用：均值池化主要用来抑制邻域值之间差别过大，造成的方差过大。如，输入（2,10），通过均值池化后是（6），对于输入的整体信息保存的很好，在计算机视觉中：因为一般前景的值大于背景，并且背景较多，所以对背景的保留效果好反传 mean pooling的前向传播就是把一个patch中的值求取平均来做pooling，那么反向传播的过程也就是把某个元素的梯度等分为n份分配给前一层，这样就保证池化前后的梯度（残差）之和保持不变，还是比较理解的，图示如下 mean pooling比较容易让人理解错的地方就是会简单的认为直接把梯度复制N遍之后直接反向传播回去，但是这样会造成loss之和变为原来的N倍，网络是会产生梯度爆炸的。最大池化能够抑制网络参数误差造成的估计均值偏移的现象。...

#DL基础

READ

Softmax

Deep Learning

2026-02-27

Softmax初探在机器学习尤其是深度学习中，softmax是个非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。首先我们简单来看看softmax是什么意思。顾名思义，softmax由两个单词组成，其中一个是max。对于max我们都很熟悉，比如有两个变量 \(a\) , \(b\) 。如果 \(a>b\) ，则max为 \(a\) ，反之为 \(b\) 。用伪码简单描述一下就是 if a > b return a; else b 。另外一个单词为soft。max存在的一个问题是什么呢？如果将max看成一个分类问题，就是非黑即白，最后的输出是一个确定的变量。更多的时候，我们希望输出的是取到某个分类的概率，或者说，我们希望分值大的那一项被经常取到，而分值较小的那一项也有一定的概率偶尔被取到，所以我们就应用到了soft的概念，即最后的输出是每个分类被取到的概率。 Softmax的定义假设有一个数组 \(V\) ， \(V_i\) 表示 \(V\) 中的第 \(i\)...

#DL基础

READ

常用损失函数

Deep Learning

2026-02-27

机器学习 Hinge Loss Hinge 的叫法来源于其损失函数的图形，为一个折线，通用函数方式为: \[L(m_i) = max(0,1-m_i(w))\] Hinge可以解间距最大化问题，带有代表性的就是svm,最初的svm优化函数如下: \[\underset{w,\zeta}{argmin} \frac{1}{2}||w||^2+ C\sum_i \zeta_i \\ st.\quad \forall y_iw^Tx_i \geq 1- \zeta_i \\ \zeta_i \geq 0\] 将约束项进行变形则为: \[\zeta_i \geq 1-y_iw^Tx_i\] 则可以将损失函数进一步写为: \[\begin{aligned}J(w)&=\frac{1}{2}||w||^2 + C\sum_i max(0,1-y_iw^Tx_i) \\ &= \frac{1}{2}||w||^2 + C\sum_i max(0,1-m_i(w)) \\ &= \frac{1}{2}||w||^2 + C\sum_i L_{Linge}(m_i) \end{aligned}\]...

#DL基础 #Machine Learning

READ

目标检测中mAP计算

Computer Vision

2026-02-26

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: Precision-Recall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量 FN: 没有检测到的GT的数量 mAP的具体计算由前面定义，我们可以知道，要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假设，对于...

#DL基础 #CV #Object Detection

READ

MiMo-VL

Large Model

2026-01-26

概述小米团队近日发布了MIMO-VL-7B-SFT和MIMO-VL-7B-RL，这是两个强大的视觉语言模型，MIMO-VL-7B-RL在40个评估任务中的35个上优于QWEN2.5-VL-7B，对于GUI Grounding任务，它在OSWorld-G上设置了一个新标准，甚至超过了UI-TARS等专业模型。模型通过四个阶段的预训练（2.4T Token）与Mixed On-policy 强化（MORL）整合了多样化的奖励信号。在文章中，作者提到了两个重要的发现：从Pre-Traing 训练阶段中加入高质量且覆盖广的推理数据对于强化模型性能至关重要。 Mixed On-policy 强化学习进一步增强了模型的性能，同时实现了稳定的同时改进仍然在性能方面具有挑战性。 Pre-Training 模型结构整个模型还是采用了VIT-MLP-LLM的结构，具体来说，视觉模型采用了Qwen2.5-VL中的视觉encoder，LLM采用了自家的语言模型MiMo-7B-Base。整个Pretraining采用了四个阶段的训练，每个阶段采用的数据，模型训练参数和模型参数如下面两表所示...

#VLM #Large Model

READ

MiniCPM-V系列

Large Model

2026-01-26

MiniCPM-V系列是面壁智能推出的小参数量的开源多模态大模型，没有超过9B的版本。主打小而强。 MiniCPM-Llama3-V 2.5 这版有论文了，详细写。应该也是2.6的基础。这一版在 OpenCompass 评估中优于强大的 GPT-4V-1106、Gemini Pro 和 Claude 3。能力支持最高1.8M像素的高分辨率图像输入（例如1344*1344），支持任意长宽比图像强大的OCR，OCRBench 上优于 GPT-4V、Gemini Pro 和 Qwen-VL-Max，支持table-to-markdown 可信，基于RLAIF-V技术做了对齐，减少幻觉，更符合人类喜好多语言，基于VisCPM技术，支持30多种语言系统地集成了一套端侧部署优化技术模型架构基本架构三部分：visual encoder, 压缩层, LLM visual encoder：SigLIP SoViT-400m/14 压缩层：单层交叉注意力 LLM：每一代都不同 Adaptive Visual Encoding...

#Large Model #VLM

READ

InternVL系列

Large Model

2026-01-26

InternVL Blog： https://internvl.github.io/blog/ Github： https://github.com/OpenGVLab/InternVL InternVL 1.0 对齐策略语言模型和视觉模型各自发展，各有突破，但如何让语言模型会看图，或者让视觉模型会说话？为了将视觉模型与语言模型进行连接，对齐如同“胶水”,将两种模型链接在一起，如使用QFormer或线性投影这样的轻量级“胶水”层，来形成视觉-语言模型，如InstructBLIP和LLaVA，但均存在局限性。现有对齐策略的局限性参数规模的不一致： LLM的参数规模已经达到1000亿，而广泛使用的VLLM的视觉编码器仍在10亿参数左右。这种差距可能导致LLM的能力无法被充分利用。特征表示的不一致：在纯视觉数据上训练的视觉模型或与BERT系列对齐的模型往往与LLM存在表示上的不一致。连接效率低下： “胶水”层通常是轻量的、随机初始化的，可能无法捕捉到多模态理解和生成所需的丰富的跨模态交互和依赖关系。 InternVL引入全新的对齐策略...

#Large Model #VLM

READ

重参数化：从正态分布到Gumbel Softmax

Deep Learning

2026-01-22

文章从连续情形出发开始介绍重参数，主要的例子是正态分布的重参数；然后引入离散分布的重参数，这就涉及到了Gumbel Softmax，包括Gumbel Softmax的一些证明和讨论；最后再讲讲重参数背后的一些故事，这主要跟梯度估计有关。基本概念重参数（Reparameterization）实际上是处理如下期望形式的目标函数的一种技巧： \[L_{\theta}=\mathbb{E}_{z\sim p_{\theta}(z)}[f(z)]\tag{1}\] 这样的目标在VAE中会出现，在文本GAN也会出现，在强化学习中也会出现（ \(f(z)\) 对应于奖励函数），所以深究下去，我们会经常碰到这样的目标函数。取决于 \(z\) 的连续性，它对应不同的形式： \[\int p_{\theta}(z) f(z)dz\,\,\,\text{(连续情形)}\qquad\qquad \sum_{z} p_{\theta}(z) f(z)\,\,\,\text{(离散情形)}\tag{2}\] 当然，离散情况下我们更喜欢将记号 \(z\) 换成 \(y\) 或者 \(c\) 。为了最小化...

#VAE #DL基础

READ

单调队列

Algorithm

2026-01-21

129. 滑动窗口最大值题目给你一个整数数组 nums ，有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。示例 1：输入：nums = [1,3,-1,-3,5,3,6,7], k = 3 输出：[3,3,5,5,6,7] 解释：滑动窗口的位置最大值 --------------- ----- [1 3 -1] -3 5 3 6 7 3 1 [3 -1 -3] 5 3 6 7 3 1 3 [-1 -3 5] 3 6 7 5 1 3 -1 [-3 5 3] 6 7 5 1 3 -1 -3 [5 3 6] 7 6 1 3 -1 -3 5 [3 6 7] 7 示例 2：输入：nums = [1], k = 1 输出：[1] 提示： 1 <= nums.length...

#单调栈

READ

#

!

INCOMING TRANSMISSION

Muon优化器

函数光滑化：不可导函数的可导逼近

Dropout原理与实现

池化层总结

Softmax

常用损失函数

目标检测中mAP计算

MiMo-VL

MiniCPM-V系列

InternVL系列

重参数化：从正态分布到Gumbel Softmax

单调队列