知识库 - Orange

Muon优化器

Deep Learning

2026-02-27

随着LLM时代的到来，学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求，而如果对优化器“大动干戈”，那么需要巨大的验证成本。因此，当前优化器的变化，多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。不过，最近推特上一个名为“Muon”的优化器颇为热闹，它声称比AdamW更为高效，且并不只是在Adam基础上的“小打小闹”，而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。算法初探 Muon全称是“MomentUm Orthogonalized by Newton-schulz”，它适用于矩阵参数 \(\boldsymbol{W}\in\mathbb{R}^{n\times m}\) ，其更新规则是 \[\begin{aligned} \boldsymbol{M}_t =&\, \beta\boldsymbol{M}_{t-1} + \boldsymbol{G}_t \\[5pt] \boldsymbol{W}_t =&\, \boldsymbol{W}_{t-1} - \eta_t...

#DL基础 #Large Model

READ

函数光滑化：不可导函数的可导逼近

Deep Learning

2026-02-27

一般来说，神经网络处理的东西都是连续的浮点数，标准的输出也是连续型的数字。但实际问题中，我们很多时候都需要一个离散的结果，比如分类问题中我们希望输出正确的类别，“类别”是离散的，“类别的概率”才是连续的；又比如我们很多任务的评测指标实际上都是离散的，比如分类问题的正确率和F1、机器翻译中的BLEU，等等。还是以分类问题为例，常见的评测指标是正确率，而常见的损失函数是交叉熵。交叉熵的降低与正确率的提升确实会有一定的关联，但它们不是绝对的单调相关关系。换句话说，交叉熵下降了，正确率不一定上升。显然，如果能用正确率的相反数做损失函数，那是最理想的，但正确率是不可导的（涉及到 \(\text{argmax}\) 等操作），所以没法直接用。这时候一般有两种解决方案；一是动用强化学习，将正确率设为奖励函数，这是“用牛刀杀鸡”的方案；另外一种是试图给正确率找一个光滑可导的近似公式。本文就来探讨一下常见的不可导函数的光滑近似，有时候我们称之为“光滑化”，有时候我们也称之为“软化”。 max 后面谈到的大部分内容，基础点就是max操作的光滑近似，我们有：...

#DL基础

READ

Dropout原理与实现

Deep Learning

2026-02-27

Dropout的运作方式在神经网络的训练过程中，对于一次迭代中的某一层神经网络，先随机选择中的一些神经元并将其临时隐藏(丢弃)，然后再进行本次训练和优化。在下一次迭代中，继续随机隐藏一些神经元，如此直至训练结束。由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。在训练时，每个神经单元以概率 \(𝑝\) 被保留(Dropout丢弃率为 \(1−𝑝\) )；在预测阶段（测试阶段），每个神经单元都是存在的，权重参数 \(𝑤\) 要乘以 \(𝑝\) ，输出是： \(𝑝𝑤\) 。示意图如下：预测阶段需要乘上 \(p\) 的原因：前一层隐藏层的一个神经元在dropout之前的输出是 \(x\) ，训练时dropout之后的期望值是 \(E=px+0*(1−p)\) ; 在预测阶段该层神经元总是激活，为了保持同样的输出期望值并使下一层也得到同样的结果，需要调整 \(x\rightarrow px\) . 其中 \(p\) 是Bernoulli分布（0-1分布）中值为1的概率。 Dropout 实现如前文所述，在训练时随机隐藏部分神经元，在预测时必须要乘上p。代码如下：...

#DL基础

READ

池化层总结

Deep Learning

2026-02-27

池化：池化函数使用某一位置的相邻输出的总体统计特征来代替网络在该位置的输出。本质是降采样，可以大幅减少网络的参数量。常用的池化有：均值池化（mean pooling）、最大池化（max pooling）。 pooling操作没有参数量！！！下面来说说这两种池化的区别与作用：均值池化主要用来抑制邻域值之间差别过大，造成的方差过大。如，输入（2,10），通过均值池化后是（6），对于输入的整体信息保存的很好，在计算机视觉中：因为一般前景的值大于背景，并且背景较多，所以对背景的保留效果好反传 mean pooling的前向传播就是把一个patch中的值求取平均来做pooling，那么反向传播的过程也就是把某个元素的梯度等分为n份分配给前一层，这样就保证池化前后的梯度（残差）之和保持不变，还是比较理解的，图示如下 mean pooling比较容易让人理解错的地方就是会简单的认为直接把梯度复制N遍之后直接反向传播回去，但是这样会造成loss之和变为原来的N倍，网络是会产生梯度爆炸的。最大池化能够抑制网络参数误差造成的估计均值偏移的现象。...

#DL基础

READ

Softmax

Deep Learning

2026-02-27

Softmax初探在机器学习尤其是深度学习中，softmax是个非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。首先我们简单来看看softmax是什么意思。顾名思义，softmax由两个单词组成，其中一个是max。对于max我们都很熟悉，比如有两个变量 \(a\) , \(b\) 。如果 \(a>b\) ，则max为 \(a\) ，反之为 \(b\) 。用伪码简单描述一下就是 if a > b return a; else b 。另外一个单词为soft。max存在的一个问题是什么呢？如果将max看成一个分类问题，就是非黑即白，最后的输出是一个确定的变量。更多的时候，我们希望输出的是取到某个分类的概率，或者说，我们希望分值大的那一项被经常取到，而分值较小的那一项也有一定的概率偶尔被取到，所以我们就应用到了soft的概念，即最后的输出是每个分类被取到的概率。 Softmax的定义假设有一个数组 \(V\) ， \(V_i\) 表示 \(V\) 中的第 \(i\)...

#DL基础

READ

常用损失函数

Deep Learning

2026-02-27

机器学习 Hinge Loss Hinge 的叫法来源于其损失函数的图形，为一个折线，通用函数方式为: \[L(m_i) = max(0,1-m_i(w))\] Hinge可以解间距最大化问题，带有代表性的就是svm,最初的svm优化函数如下: \[\underset{w,\zeta}{argmin} \frac{1}{2}||w||^2+ C\sum_i \zeta_i \\ st.\quad \forall y_iw^Tx_i \geq 1- \zeta_i \\ \zeta_i \geq 0\] 将约束项进行变形则为: \[\zeta_i \geq 1-y_iw^Tx_i\] 则可以将损失函数进一步写为: \[\begin{aligned}J(w)&=\frac{1}{2}||w||^2 + C\sum_i max(0,1-y_iw^Tx_i) \\ &= \frac{1}{2}||w||^2 + C\sum_i max(0,1-m_i(w)) \\ &= \frac{1}{2}||w||^2 + C\sum_i L_{Linge}(m_i) \end{aligned}\]...

#Machine Learning #DL基础

READ

目标检测中mAP计算

Computer Vision

2026-02-26

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: Precision-Recall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量 FN: 没有检测到的GT的数量 mAP的具体计算由前面定义，我们可以知道，要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假设，对于...

#Object Detection #DL基础 #CV

READ

3D Model 概述

3D Model

2026-02-12

深度相机 “工欲善其事必先利其器‘’我们先从能够获取RGBD数据的相机开始谈起。首先我们来看一看其分类。根据其工作原理主要分为三类： 1.双目方案基于双目立体视觉的深度相机类似人类的双眼，和基于TOF、结构光原理的深度相机不同，它不对外主动投射光源，完全依靠拍摄的两张图片（彩色RGB或者灰度图）来计算深度，因此有时候也被称为被动双目深度相机。比较知名的产品有STEROLABS 推出的 ZED 2K Stereo Camera和Point Grey 公司推出的 BumbleBee。双目立体视觉是基于视差原理，由多幅图像获取物体三维几何信息的方法。在机器视觉系统中，双目视觉一般由双摄像机从不同角度同时获取周围景物的两幅数字图像，或有由单摄像机在不同时刻从不同角度获取周围景物的两幅数字图像，并基于视差原理即可恢复出物体三维几何信息，重建周围景物的三维形状与位置。双目视觉有的时候我们也会把它称为体视，是人类利用双眼获取环境三维信息的主要途径。从目前来看，随着机器视觉理论的发展，双目立体视觉在机器视觉研究中发回来看了越来越重要的作用为什么非得用双目相机才能得到深度？...

#Depth-Estimation #3D #RGB-D

READ

Stacked Hourglass Networks

3D Model

2026-02-12

论文介绍了一种新的网络结构用于人体姿态检测，作者在论文中展现了不断重复bottom-up、top-down过程以及运用intermediate supervison（中间监督）对于网络性能的提升，下面来介绍Stacked Hourglass Networks. 简介理解人类的姿态对于一些高级的任务比如行为识别来说特别重要，而且也是一些人机交互任务的基础。作者提出了一种新的网络结构Stacked Hourglass Networks来对人体的姿态进行识别，这个网络结构能够捕获并整合图像所有尺度的信息。之所以称这种网络为Stacked Hourglass Networks，主要是它长得很像堆叠起来的沙漏，如下图所示：这种堆叠在一起的Hourglass模块结构是对称的，bottom-up过程将图片从高分辨率降到低分辨率，top-down过程将图片从低分辨率升到高分辨率，这种网络结构包含了许多pooling和upsampling的步骤，pooling可以将图片降到一个很低的分辨率，upsampling可以结合多个分辨率的特征。下面介绍具体的网络结构。 Hourglass Module...

#3D

READ

Gaze Estimation

3D Model

2026-02-12

概述问题定义广义的 Gaze Estimation 泛指与眼球、眼动、视线等相关的研究，因此有不少做 saliency 和 egocentric 的论文也以 gaze 为关键词。而本文介绍的 Gaze Estimation 主要以眼睛图像或人脸图像为处理对象，估算人的视线方向或注视点位置，如下图所示。 gaze角度的表示一般使用一个3d向量作为表示，也可以转换为pitch 和yaw角度，具体可参考欧拉角、旋转矩阵、旋转向量、四元数 Model Gaze模型一般使用回归模型，所以这里基本只介绍一些在gaze model中使用的小技巧 Rle Loss RLE Loss 实际问题 Gaze采集标定方案

#3D

READ

Gaze采集标定方案

3D Model

2026-02-12

整体流程 # 文件夹biaoding处理加crop以及生成.yml系列文件,保存在calib_params以及biaoding_pipeline文件夹中 0_test_calibprocess.sh # 内参标定,往往需要多天数据,且要保证标定板出现的多样性以及cover大部分区域 1_calib_intrics.sh # 外参标定,使用混合的内参对单天数据进行外参标定,最好loss在0.000x 1_calib_extrics.sh # 修改anchor.yaml相机信息进行15标定,loss 100以下,A88参考为50左右 2_test_merge.sh # 选择数据送标anchor,返回后, loss 0.00x, 不准基本就是anchor标错或者方向盘等位置发生运动 python tools/display_tags.py --anchor_path /mnt/.../anchor 3_test_anchors.sh # 检查anchor的3d位置是否正确 # 首先根据点位加入颜色 python 3_addcolor_anchor.py #...

#3D

READ

RLE Loss

3D Model

2026-02-12

论文地址： https://arxiv.org/pdf/2107.11291 代码地址： https://github.com/Jeff-sjtu/res-loglikelihood-regression 前言一般来说，我们可以把姿态估计任务分成两个流派：Heatmap-based和Regression-based。其主要区别在于监督信息的不同，Heatmap-based方法监督模型学习的是高斯概率分布图，即把GroundTruth中每个点渲染成一张高斯热图，最后网络输出为K张特征图对应K个关键点，然后通过argmax或soft-argmax来获取最大值点作为估计结果。这种方法由于需要渲染高斯热图，且由于热图中的最值点直接对应了结果，不可避免地需要维持一个相对高分辨率的热图（常见的是64x64，再小的话误差下界过大会造成严重的精度损失），因此也就自然而然导致了很大的计算量和内存开销。 Regression-based方法则非常简单粗暴，直接监督模型学习坐标值，计算坐标值的L1或L2...

#3D #CV

READ

#

!

INCOMING TRANSMISSION

Muon优化器

函数光滑化：不可导函数的可导逼近

Dropout原理与实现

池化层总结

Softmax

常用损失函数

目标检测中mAP计算

3D Model 概述

Stacked Hourglass Networks

Gaze Estimation

Gaze采集标定方案

RLE Loss