知识库 - Orange

激活函数系列

Deep Learning

2026-02-27

最近，似乎现在每个大型语言模型（LLM）和新闻中提到的复杂神经网络架构都使用略有不同的激活函数，而就在几年前，最常见的做法只是在神经网络的内部层中使用 ReLU。曾经优秀的 ReLUs 怎么了，以及是什么促使最新的大型语言模型（LLMs）的创造者们开始使用不同的（更高级的）激活函数？ Threshold activation (Perceptron) 1957 年，罗森布拉特建造了“感知机” 最古老的激活函数是基本感知器。它由芝加哥大学精神病学系的爱德华·麦克洛奇和沃尔特·皮茨构思，后来由弗兰克·罗森布拉特在 1957 年于康奈尔航空实验室为美国海军在硬件上更著名地实现了。该算法非常简单，其基本规则是：如果某个值超过某个阈值，则返回 1，否则返回 0。有些变体会返回 1 或-1。由于其二元特性，除了某一点外，其导数为 0。这意味着权重无法通过反向传播等技术与网络提供的标签成比例地缩放。多层感知器会简化为线性函数，使得它难以处理非线性可分的数据，比如这两个甜甜圈点云。 Sigmoid \[sigmoid(x) = \frac{1}{1 + e^{-x}}\] logistic...

#DL基础

READ

Muon优化器

Deep Learning

2026-02-27

随着LLM时代的到来，学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求，而如果对优化器“大动干戈”，那么需要巨大的验证成本。因此，当前优化器的变化，多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。不过，最近推特上一个名为“Muon”的优化器颇为热闹，它声称比AdamW更为高效，且并不只是在Adam基础上的“小打小闹”，而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。算法初探 Muon全称是“MomentUm Orthogonalized by Newton-schulz”，它适用于矩阵参数 \(\boldsymbol{W}\in\mathbb{R}^{n\times m}\) ，其更新规则是 \[\begin{aligned} \boldsymbol{M}_t =&\, \beta\boldsymbol{M}_{t-1} + \boldsymbol{G}_t \\[5pt] \boldsymbol{W}_t =&\, \boldsymbol{W}_{t-1} - \eta_t...

#Large Model #DL基础

READ

函数光滑化：不可导函数的可导逼近

Deep Learning

2026-02-27

一般来说，神经网络处理的东西都是连续的浮点数，标准的输出也是连续型的数字。但实际问题中，我们很多时候都需要一个离散的结果，比如分类问题中我们希望输出正确的类别，“类别”是离散的，“类别的概率”才是连续的；又比如我们很多任务的评测指标实际上都是离散的，比如分类问题的正确率和F1、机器翻译中的BLEU，等等。还是以分类问题为例，常见的评测指标是正确率，而常见的损失函数是交叉熵。交叉熵的降低与正确率的提升确实会有一定的关联，但它们不是绝对的单调相关关系。换句话说，交叉熵下降了，正确率不一定上升。显然，如果能用正确率的相反数做损失函数，那是最理想的，但正确率是不可导的（涉及到 \(\text{argmax}\) 等操作），所以没法直接用。这时候一般有两种解决方案；一是动用强化学习，将正确率设为奖励函数，这是“用牛刀杀鸡”的方案；另外一种是试图给正确率找一个光滑可导的近似公式。本文就来探讨一下常见的不可导函数的光滑近似，有时候我们称之为“光滑化”，有时候我们也称之为“软化”。 max 后面谈到的大部分内容，基础点就是max操作的光滑近似，我们有：...

#DL基础

READ

Dropout原理与实现

Deep Learning

2026-02-27

Dropout的运作方式在神经网络的训练过程中，对于一次迭代中的某一层神经网络，先随机选择中的一些神经元并将其临时隐藏(丢弃)，然后再进行本次训练和优化。在下一次迭代中，继续随机隐藏一些神经元，如此直至训练结束。由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。在训练时，每个神经单元以概率 \(𝑝\) 被保留(Dropout丢弃率为 \(1−𝑝\) )；在预测阶段（测试阶段），每个神经单元都是存在的，权重参数 \(𝑤\) 要乘以 \(𝑝\) ，输出是： \(𝑝𝑤\) 。示意图如下：预测阶段需要乘上 \(p\) 的原因：前一层隐藏层的一个神经元在dropout之前的输出是 \(x\) ，训练时dropout之后的期望值是 \(E=px+0*(1−p)\) ; 在预测阶段该层神经元总是激活，为了保持同样的输出期望值并使下一层也得到同样的结果，需要调整 \(x\rightarrow px\) . 其中 \(p\) 是Bernoulli分布（0-1分布）中值为1的概率。 Dropout 实现如前文所述，在训练时随机隐藏部分神经元，在预测时必须要乘上p。代码如下：...

#DL基础

READ

池化层总结

Deep Learning

2026-02-27

池化：池化函数使用某一位置的相邻输出的总体统计特征来代替网络在该位置的输出。本质是降采样，可以大幅减少网络的参数量。常用的池化有：均值池化（mean pooling）、最大池化（max pooling）。 pooling操作没有参数量！！！下面来说说这两种池化的区别与作用：均值池化主要用来抑制邻域值之间差别过大，造成的方差过大。如，输入（2,10），通过均值池化后是（6），对于输入的整体信息保存的很好，在计算机视觉中：因为一般前景的值大于背景，并且背景较多，所以对背景的保留效果好反传 mean pooling的前向传播就是把一个patch中的值求取平均来做pooling，那么反向传播的过程也就是把某个元素的梯度等分为n份分配给前一层，这样就保证池化前后的梯度（残差）之和保持不变，还是比较理解的，图示如下 mean pooling比较容易让人理解错的地方就是会简单的认为直接把梯度复制N遍之后直接反向传播回去，但是这样会造成loss之和变为原来的N倍，网络是会产生梯度爆炸的。最大池化能够抑制网络参数误差造成的估计均值偏移的现象。...

#DL基础

READ

Softmax

Deep Learning

2026-02-27

Softmax初探在机器学习尤其是深度学习中，softmax是个非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。首先我们简单来看看softmax是什么意思。顾名思义，softmax由两个单词组成，其中一个是max。对于max我们都很熟悉，比如有两个变量 \(a\) , \(b\) 。如果 \(a>b\) ，则max为 \(a\) ，反之为 \(b\) 。用伪码简单描述一下就是 if a > b return a; else b 。另外一个单词为soft。max存在的一个问题是什么呢？如果将max看成一个分类问题，就是非黑即白，最后的输出是一个确定的变量。更多的时候，我们希望输出的是取到某个分类的概率，或者说，我们希望分值大的那一项被经常取到，而分值较小的那一项也有一定的概率偶尔被取到，所以我们就应用到了soft的概念，即最后的输出是每个分类被取到的概率。 Softmax的定义假设有一个数组 \(V\) ， \(V_i\) 表示 \(V\) 中的第 \(i\)...

#DL基础

READ

常用损失函数

Deep Learning

2026-02-27

机器学习 Hinge Loss Hinge 的叫法来源于其损失函数的图形，为一个折线，通用函数方式为: \[L(m_i) = max(0,1-m_i(w))\] Hinge可以解间距最大化问题，带有代表性的就是svm,最初的svm优化函数如下: \[\underset{w,\zeta}{argmin} \frac{1}{2}||w||^2+ C\sum_i \zeta_i \\ st.\quad \forall y_iw^Tx_i \geq 1- \zeta_i \\ \zeta_i \geq 0\] 将约束项进行变形则为: \[\zeta_i \geq 1-y_iw^Tx_i\] 则可以将损失函数进一步写为: \[\begin{aligned}J(w)&=\frac{1}{2}||w||^2 + C\sum_i max(0,1-y_iw^Tx_i) \\ &= \frac{1}{2}||w||^2 + C\sum_i max(0,1-m_i(w)) \\ &= \frac{1}{2}||w||^2 + C\sum_i L_{Linge}(m_i) \end{aligned}\]...

#DL基础 #Machine Learning

READ

目标检测中mAP计算

Computer Vision

2026-02-26

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: Precision-Recall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量 FN: 没有检测到的GT的数量 mAP的具体计算由前面定义，我们可以知道，要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假设，对于...

#CV #DL基础 #Object Detection

READ

Math

Algorithm

2026-02-25

48. 旋转图像题目给定一个 \(n × n\) 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例 1：输入：matrix = [[1,2,3],[4,5,6],[7,8,9]] 输出：[[7,4,1],[8,5,2],[9,6,3]] 示例 2：输入：matrix = [[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,16]] 输出：[[15,13,2,5],[14,3,4,1],[12,6,8,9],[16,7,10,11]] 提示： n == matrix.length == matrix[i].length 1 <= n <= 20 -1000 <= matrix[i][j] <= 1000 题解这是一个经典的矩阵操作问题。要在原地（In-place）将图像顺时针旋转 90 度，我们可以利用矩阵的几何性质。最直观且易于实现的方法是将...

#Algorithm

READ

算法与数据结构

Algorithm

2026-02-25

线性结构与技巧基础容器数组 (Array) 链表 (Linked List) 字符串 (String) KMP算法核心技巧双指针滑动窗口二分查找栈与队列栈 & 队列 (Stack & Queue) 单调队列树与图论树与堆 (Tree & Heap) 树的遍历二叉树堆（大顶堆&小顶堆）优先队列图 (Graph) 搜索(BFS/DFS) 最小生成树核心算法思想动态规划 (DP) 基础 DP 背包问题排序基础排序算法排序算法数据处理哈希表 Math

#Algorithm

READ

KMP算法

Algorithm

2026-02-25

kmp算法用于字符串的模式匹配，也就是找到模式字符串在目标字符串的第一次出现的位置比如 abababc 那么 bab 在其位置1处， bc 在其位置5处，我们首先想到的最简单的办法就是蛮力的一个字符一个字符的匹配，但那样的时间复杂度会是 \(O(m*n)\) 。kmp算法保证了时间复杂度为 \(O(m+n)\) 。基本原理举个例子：发现 x 与 c 不同后，进行移动 a 与 x 不同，再次移动此时比较到了 c 与 y ，于是下一步移动成了下面这样这一次的移动与前两次的移动不同，之前每次比较到上面长字符串的字符位置后，直接把模式字符串的首字符与它对齐，这次并没有，原因是这次移动之前， y 与 c 对齐，但是 y 前边的 ab 是与自己的前缀 ab 一样，于是 ab 并不用再比较，直接从第三个位置开始比较，如图：所以说 kmp算法对于这种情况就直接使用当前比较字符之前的最长相同的前后缀，然后将前缀与上面的长字符串对齐，继续比较后面的字符串。这里kmp算法中的一个重要点就来了，如何找到模式字符串中每位字符之前的最长相同前后缀呢这里继续用一个例子举例：下面的数字记录...

#Algorithm

READ

二分查找

Algorithm

2026-02-25

💡 不断排除不存在解的区间，直至最后剩下一个这里归纳最重要的部分：分析题意，挖掘题目中隐含的单调性； while (left < right) 退出循环的时候有 left == right 成立，因此无需考虑返回 left 还是 right ；始终思考下一轮搜索区间是什么，如果是 [mid, right] 就对应 left = mid ，如果是 [left, mid - 1] 就对应 right = mid - 1 ，是保留 mid 还是 +1、−1 就在这样的思考中完成；从一个元素什么时候不是解开始考虑下一轮搜索区间是什么，把区间分为 2个部分（一个部分肯定不存在目标元素，另一个部分有可能存在目标元素），问题会变得简单很多，这是一条非常有用的经验；每一轮区间被划分成 2 部分，理解区间划分决定中间数取法（无需记忆，需要练习 + 理解），在调试的过程中理解区间和中间数划分的配对关系：划分 [left, mid] 与 [mid + 1, right] ，mid 被分到左边，对应 int mid = left + (right - left) / 2 ;...

#Algorithm

READ

#

!

INCOMING TRANSMISSION

激活函数系列

Muon优化器

函数光滑化：不可导函数的可导逼近

Dropout原理与实现

池化层总结

Softmax

常用损失函数

目标检测中mAP计算

Math

算法与数据结构

KMP算法

二分查找