知识库 - Orange

激活函数系列

Deep Learning

2026-01-11

最近，似乎现在每个大型语言模型（LLM）和新闻中提到的复杂神经网络架构都使用略有不同的激活函数，而就在几年前，最常见的做法只是在神经网络的内部层中使用 ReLU。曾经优秀的 ReLUs 怎么了，以及是什么促使最新的大型语言模型（LLMs）的创造者们开始使用不同的（更高级的）激活函数？ Threshold activation (Perceptron) 1957 年，罗森布拉特建造了“感知机” 最古老的激活函数是基本感知器。它由芝加哥大学精神病学系的爱德华·麦克洛奇和沃尔特·皮茨构思，后来由弗兰克·罗森布拉特在 1957 年于康奈尔航空实验室为美国海军在硬件上更著名地实现了。该算法非常简单，其基本规则是：如果某个值超过某个阈值，则返回 1，否则返回 0。有些变体会返回 1 或1。由于其二元...

#DL基础

READ

随机游走问题

Math

2026-01-11

问题表示有很多概率问题，尤其是独立重复实验问题，如果用生成函数的方法来做，会显得特别方便。本文要讲的“随机游走”问题便是其中一例，它又被形象地叫做“醉汉问题”，其本质上是一个二项分布，但是由于取了极限，出现了很多新的性质和应用。我们先考虑如下问题：考虑实数轴上的一个粒子，在 t=0 时刻它位于原点，每过一秒，它要不向前移动一格（+1），要不就向后移动一格（1），问 n 秒后它所处位置的概率分布。不难发现，这个问题跟二项分布是雷同的。如果把这个粒子形象比喻成一个“喝醉酒的人”，那么上面的走法就类似于一个完全不省人事的醉汉走路问题了。（当然，醉汉是在三维空间走路的，这里简单起见，只描述了一维...

#math

READ

随机近似（Stochastic Approximation）

Deep Learning

2026-01-11

引言与背景随机逼近（Stochastic Approximation）是一类用于求解寻根或优化问题的随机迭代算法，其特点是不需要知道目标函数或其导数的表达式。随机逼近的核心优势在于：能够处理带有随机噪声的观测数据不需要目标函数的解析表达式可以在线学习，每获得一个新样本就更新估计值均值估计问题考虑一个随机变量 X ，其取值来自有限集合 [Math] 。我们的目标是估计 E[X] 。假设我们有一个独立同分布的样本序列 \{x_i\}_{i=1}^n ，那么 X 的期望值可以近似为： [公式] 非增量方法与增量方法非增量方法：先收集所有样本，然后计算平均值。缺点是如果样本数量很大，可能需要等待很长时间。增量方法：定义 [公式] 可以推导出递归公式： [公式] 这个算法可以增量式地...

#DL基础 #Reinforcement Learning

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#CNN #DL基础

READ

优化器系列

Deep Learning

2026-01-11

AdamW目前是大语言模型训练的默认优化器，而大部分资料对Adam跟AdamW区别的介绍都不是很明确，在此梳理一下Adam与AdamW的计算流程，明确一下二者的区别。 TLDR：AdamW将优化过程中使用的针对网络权重的衰减项（或者叫正则项）从loss中单独拿了出来，不参与Adam中一二阶动量的计算。下面是二者的详细对比： Adam 首先是Adam，给定在迭代步数 t 时模型的参数 [Math] 与梯度 g_t ，Adam的计算公式如下： [公式] 式(1)用于计算梯度的一阶指数滑动平均式(2)用于计算梯度的二阶项的指数滑动平均式(3)与(4)对计算得到的指数滑动平均值进行消偏式(5)为Adam的更新公式，其可以拆成两部分理解：动量更新与自适应学习率。 AdamW AdamW 相对与...

#DL基础

READ

二次型优化问题

Math

2026-01-11

问题定义多元二次多项式，维度为 n ，那么可以用以下公式描述该函数： [Formula] 其中 a_{i,j} 为二次项系数，共有 n^2 项， 1≤i,j≤n ，且所有的 a 不全为0，即 ∃a_{i,j}≠0 ; b_k 为一次项系数，共 n 项， 1≤k≤n ; c 为常数项。记 f(x)=[x_1,x_2,...,x_n]^T ，则上述函数可以写作二次型的形式：转化过程中A,b满足： A 为n阶对称方阵， A_{i,j}=a_{i,j} 因为 ∃a_{i,j}≠0 ，A不为零矩阵 b_i=b_i 为了后续计算简便，我们将二次型稍作改动： [Formula] 我们的目标就是寻找该函...

#math

READ

方向导数与梯度

Math

2026-01-11

基本概念方向导数：是一个数；反映的是 f(x,y) 在 P_0 点沿方向 v 的变化率。偏导数：是多个数（每元有一个）；是指多元函数沿坐标轴方向的方向导数，因此二元函数就有两个偏导数。偏导函数：是一个函数；是一个关于点的偏导数的函数。梯度：是一个向量；每个元素为函数对一元变量的偏导数；它既有大小（其大小为最大方向导数），也有方向。方向导数反映的是 f(x,y) 在 P_0 点沿方向 v 的变化率。例子如下：题目设二元函数 f(x, y) = x^2 + y^2 ，分别计算此函数在点 (1, 2) 沿方向 w=\{3, 4\} 与方向 u=\{1, 0\} 的方向导数。解： ...

#math

READ

Lightweight Backbones

Computer Vision

2026-01-11

💡 轻量级网络系列 Introduction Inception 在最初的版本 Inception/GoogleNet，其核心思想是利用多尺寸卷积核去观察输入数据。举个栗子，我们看某个景象由于远近不同，同一个物体的大小也会有所不同，那么不同尺度的卷积核观察的特征就会有这样的效果。于是就有了如下的网络结构图：于是我们的网络就变胖了，通过增加网络的宽度，提高了对于不同尺度的适应程度。但这样的话，计算量有点大了。 Pointwise Conv 为了减少在上面结构的参数量并降低计算量，于是在 Inception V1 的基础版本上加上了 1x1 卷积核，这就形成了 Inception V1 的最终网络结构，如下图。这个 1x1 卷积就是 Pointwise Convolution，简称 PW。利...

#轻量化 #CV

READ

ThunderNet

Computer Vision

2026-01-11

网络整体介绍 ThunderNet的整体架构如下图所示。 ThunderNet使用320×320像素作为网络的输入分辨率。整体的网络结构分为两部分：Backbone部分和Detection部分。网络的骨干部分为SNet，SNet是基于ShuffleNetV2进行修改得到的。网络的检测部分，利用了压缩的RPN网络，修改自LightHead RCNN网络用以提高效率。并提出Context Enhancement Module整合局部和全局特征增强网络特征表达能力。并提出Spatial Attention Module空间注意模块，引入来自RPN的前后景信息用以优化特征分布。 backbone 部分 1.输入分辨率为了加快推理（前向操作）速度，作者使用320320大小的输入图像。需要注意的...

#CV #轻量化 #Object Detection

READ

证明调和级数敛散

Math

2026-01-11

调和级数记住下面的公式就够了： [Formula] 证明方法就是下面这张图

#math

READ

泊松分布和指数分布

Math

2026-01-11

一、泊松分布日常生活中，大量事件是有固定频率的。某医院平均每小时出生3个婴儿某公司平均每10分钟接到1个电话某超市平均每天销售4包xx牌奶粉某网站平均每分钟有2次访问它们的特点就是，我们可以预估这些事件的总数，但是没法知道具体的发生时间。已知平均每小时出生3个婴儿，请问下一个小时，会出生几个？有可能一下子出生6个，也有可能一个都不出生。这是我们没法知道的。泊松分布就是描述某段时间内，事件具体的发生概率。 [Formula] 上面就是泊松分布的公式。等号的左边， P 表示概率， N 表示某种函数关系， t 表示时间， n 表示数量，1小时内出生3个婴儿的概率，就表示为 P(N(1...

#math

READ

Object-detection中mAP计算

Computer Vision

2026-01-11

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: PrecisionRecall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假...

#Object Detection #DL基础 #CV

READ

#

!

INCOMING TRANSMISSION

激活函数系列

随机游走问题

随机近似（Stochastic Approximation）

上采样、反卷积与上池化

优化器系列

二次型优化问题

方向导数与梯度

Lightweight Backbones

ThunderNet

证明调和级数敛散

泊松分布和指数分布

Object-detection中mAP计算