知识库 - Orange

Softmax

Deep Learning

2026-02-27

Softmax初探在机器学习尤其是深度学习中，softmax是个非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。首先我们简单来看看softmax是什么意思。顾名思义，softmax由两个单词组成，其中一个是max。对于max我们都很熟悉，比如有两个变量 \(a\) , \(b\) 。如果 \(a>b\) ，则max为 \(a\) ，反之为 \(b\) 。用伪码简单描述一下就是 if a > b return a; else b 。另外一个单词为soft。max存在的一个问题是什么呢？如果将max看成一个分类问题，就是非黑即白，最后的输出是一个确定的变量。更多的时候，我们希望输出的是取到某个分类的概率，或者说，我们希望分值大的那一项被经常取到，而分值较小的那一项也有一定的概率偶尔被取到，所以我们就应用到了soft的概念，即最后的输出是每个分类被取到的概率。 Softmax的定义假设有一个数组 \(V\) ， \(V_i\) 表示 \(V\) 中的第 \(i\)...

#DL基础

READ

常用损失函数

Deep Learning

2026-02-27

机器学习 Hinge Loss Hinge 的叫法来源于其损失函数的图形，为一个折线，通用函数方式为: \[L(m_i) = max(0,1-m_i(w))\] Hinge可以解间距最大化问题，带有代表性的就是svm,最初的svm优化函数如下: \[\underset{w,\zeta}{argmin} \frac{1}{2}||w||^2+ C\sum_i \zeta_i \\ st.\quad \forall y_iw^Tx_i \geq 1- \zeta_i \\ \zeta_i \geq 0\] 将约束项进行变形则为: \[\zeta_i \geq 1-y_iw^Tx_i\] 则可以将损失函数进一步写为: \[\begin{aligned}J(w)&=\frac{1}{2}||w||^2 + C\sum_i max(0,1-y_iw^Tx_i) \\ &= \frac{1}{2}||w||^2 + C\sum_i max(0,1-m_i(w)) \\ &= \frac{1}{2}||w||^2 + C\sum_i L_{Linge}(m_i) \end{aligned}\]...

#DL基础 #Machine Learning

READ

SAM 系列

Computer Vision

2026-02-27

Segment Anything Segment Anything（SA）项目：一个用于图像分割的新任务、新模型和新数据集通过FM（基础模型）+prompt解决了CV中难度较大的分割任务，给计算机视觉实现基础模型+提示学习+指令学习提供了一种思路关键：加大模型容量（构造海量的训练数据，或者构造合适的自监督任务来预训练） Segment Anything Task SAM的一部分灵感是来源于NLP中的基座模型(Foundation Model)，Foundation Model是OpenAI提出的一个概念，它指的是在超大量数据集上预训练过的大模型（如GPT系列、BERT），这些模型具有非常强大的 zero-shot 和 few-shot能力，结合prompt engineering和fine tuning等技术可以将基座模型应用在各种下游任务中并实现惊人的效果。 SAM就是想构建一个这样的图像分割基座模型，即使是一个未见过的数据集，模型也能自动或半自动（基于prompt）地完成下游的分割任务。为了实现这个目标，SAM定义了一种可提示化的分割任务（promptable...

#Segmentation #CV #transformer

READ

Swin-Transformer

Computer Vision

2026-02-27

前言首先看论文题目。Swin Transformer： Hierarchical Vision Transformer using Shifted Windows。即：Swin Transformer是一个用了移动窗口的层级式Vision Transformer 所以Swin来自于 Shifted Windows ，它能够使Vision Transformer像卷积神经网络一样，做层级式的特征提取，这样提取出来的特征具有多尺度的概念，这也是 Swin Transformer这篇论文的主要贡献。标准的Transformer直接用到视觉领域有一些挑战，即：多尺度问题：比如一张图片里的各种物体尺度不统一，NLP中没有这个问题；分辨率太大：如果将图片的每一个像素值当作一个token直接输入Transformer，计算量太大，不利于在多种机器视觉任务中的应用。基于这两点，本文提出了 hierarchical Transformer，通过移动窗口来学习特征。移动窗口学习，即只在滑动窗口内部计算自注意力，所以称为W-MSA（Window Multi-Self-Attention）。...

#CV #transformer

READ

目标检测中mAP计算

Computer Vision

2026-02-26

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: Precision-Recall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量 FN: 没有检测到的GT的数量 mAP的具体计算由前面定义，我们可以知道，要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假设，对于...

#CV #DL基础 #Object Detection

READ

DETR

Computer Vision

2026-02-26

原理分析网络架构: 本文的任务是Object detection，用到的工具是Transformers，特点是End-to-end。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他的baseline。DETR第一个使用End to End的方式解决检测问题，解决的方法是把检测问题视作是一个set prediction problem，如下图所示。...

#Object Detection #CV #transformer

READ

旋转式位置编码 RoPE

NLP

2026-01-24

旋转式位置编码（ROPE）原始的Sinusoidal位置编码总的感觉是一种“想要成为相对位置编码的绝对位置编码”。一般来说，绝对位置编码具有实现简单、计算速度快等优点，而相对位置编码则直接地体现了相对位置信号，跟我们的直观理解吻合，实际性能往往也更好。由此可见，如果可以通过绝对位置编码的方式实现相对位置编码，那么就是“集各家之所长”、“鱼与熊掌兼得”了。Sinusoidal位置编码隐约做到了这一点，但并不够好。本文将会介绍我们自研的Rotary Transformer（RoFormer）模型，它的主要改动是应用了笔者构思的“旋转式位置编码（Rotary Position Embedding，RoPE）”，这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码”的设计。而也正因为这种设计，它还是目前唯一一种可用于线性Attention的相对位置编码。 RoFormer：https://github.com/ZhuiyiTechnology/roformer 基本思路这里简要介绍过RoPE： Transformer位置编码...

#transformer #位置编码

READ

多模态模型发展

Large Model

2026-01-23

总览由于是“图文多模态”，还是要从“图”和“文”的表征方法讲起，然后讲清楚图文表征的融合方法。这里只讲两件事情：视觉表征：分为两个部分问题，一是如何合理建模视觉输入特征，二是如何通过预训练手段进行充分学习表征，这两点是基于视觉完成具体算法任务的基础；视觉与自然语言的对齐（Visul Language Alignment）或融合：目的是将视觉和自然语言建模到同一表征空间并进行融合，实现自然语言和视觉语义的互通，这点同样离不开预训练这一过程。模态对齐是处理多模态问题的基础，也是现在流行的多模态大模型技术前提。对于视觉表征，从发展上可以分为卷积神经网络（CNN）和Vision Transformer（VIT）两大脉络，二者分别都有各自的表征、预训练以及多模态对齐的发展过程。而对于VIT线，另有多模态大模型如火如荼的发展，可谓日新月异。 CNN：视觉理解的一代先驱点击展开卷积视觉表征模型和预训练...

#VLM #CV #transformer

READ

BEiT：视觉BERT预训练模型

Self-Supervised

2026-01-22

BERT 方法回顾在大规模预训练模型BERT 里面我们介绍了 BERT 的自监督预训练的方法，BERT 可以做的事情也就是Transformer 的 Encoder 可以做的事情，就是输入一排向量，输出另外一排向量，输入和输出的维度是一致的。那么不仅仅是一句话可以看做是一个sequence，一段语音也可以看做是一个sequence，甚至一个image也可以看做是一个sequence。所以BERT其实不仅可以用在NLP上，还可以用在CV里面。所以BERT其实输入的是一段文字，如下图所示。 BERT的架构就是Transformer 的 Encoder 接下来要做的事情是把这段输入文字里面的一部分随机盖住。随机盖住有 2 种，一种是直接用一个Mask 把要盖住的token (对中文来说就是一个字)给Mask掉，具体是换成一个特殊的字符。另一种做法是把这个token替换成一个随机的token。把这段输入文字里面的一部分随机盖住具体BERT详情可以参考：大规模预训练模型BERT BERT 可以直接用在视觉任务上吗？上面的 BERT 都是在 NLP 任务上使用，因为 NLP...

#Self-Supervised #transformer

READ

重参数化：从正态分布到Gumbel Softmax

Deep Learning

2026-01-22

文章从连续情形出发开始介绍重参数，主要的例子是正态分布的重参数；然后引入离散分布的重参数，这就涉及到了Gumbel Softmax，包括Gumbel Softmax的一些证明和讨论；最后再讲讲重参数背后的一些故事，这主要跟梯度估计有关。基本概念重参数（Reparameterization）实际上是处理如下期望形式的目标函数的一种技巧： \[L_{\theta}=\mathbb{E}_{z\sim p_{\theta}(z)}[f(z)]\tag{1}\] 这样的目标在VAE中会出现，在文本GAN也会出现，在强化学习中也会出现（ \(f(z)\) 对应于奖励函数），所以深究下去，我们会经常碰到这样的目标函数。取决于 \(z\) 的连续性，它对应不同的形式： \[\int p_{\theta}(z) f(z)dz\,\,\,\text{(连续情形)}\qquad\qquad \sum_{z} p_{\theta}(z) f(z)\,\,\,\text{(离散情形)}\tag{2}\] 当然，离散情况下我们更喜欢将记号 \(z\) 换成 \(y\) 或者 \(c\) 。为了最小化...

#DL基础 #VAE

READ

大规模预训练模型BERT

NLP

2026-01-22

Self-Supervised Learning ，又称为自监督学习，我们知道一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks) 。其主要的方式就是通过自己监督自己。作为代表作的 kaiming 的 MoCo 引发一波热议， Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。所以在这个系列中，我会系统地解读 Self-Supervised Learning 的经典工作。本文主要介绍 Self-Supervised Learning 在 NLP领域的经典工作：BERT模型的原理及其变体。本文来自台湾大学李宏毅老师PPT： https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf 芝麻街在介绍 Self-Supervised Learning...

#NLP #transformer #Self-Supervised

READ

MAE(Masked Autoencoders)

Computer Vision

2026-01-21

导言自监督学习（Self-Supervised Learning）能利用大量无标注的数据进行表征学习，然后在特定下游任务上对参数进行微调。通过这样的方式，能够在较少有标注数据上取得优于有监督学习方法的精度。近年来，自监督学习受到了越来越多的关注，如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在CV领域涌现了如SwAV、MOCO、DINO、MoBY等一系列工作。MAE是kaiming继MOCO之后在自监督学习领域的又一力作。首先，本文会对MAE进行解读，然后基于EasyCV库的精度复现过程及其中遇到的一些问题作出解答。概述 MAE的做法很简单：随机mask掉图片中的一些patch，然后通过模型去重建这些丢失的区域。包括两个核心的设计：1.非对称编码-解码结构 2.用较高的掩码率（75%）。通过这两个设计MAE在预训练过程中可以取得3倍以上的训练速度和更高的精度，如ViT-Huge能够通过ImageNet-1K数据上取得87.8%的准确率。模型拆解...

#CV #Self-Supervised #transformer

READ

#

!

INCOMING TRANSMISSION

Softmax

常用损失函数

SAM 系列

Swin-Transformer

目标检测中mAP计算

DETR

旋转式位置编码 RoPE

多模态模型发展

BEiT：视觉BERT预训练模型

重参数化：从正态分布到Gumbel Softmax

大规模预训练模型BERT

MAE(Masked Autoencoders)