知识库 - Orange

TridentNet

Computer Vision

2026-01-11

在正式介绍之前，先简单回顾一下现有的两大类方法。第一大类，也是从非Deep时代，乃至CV初期就被就被广泛使用的方法叫做image pyramid。在image pyramid中，我们直接对图像进行不同尺度的缩放，然后将这些图像直接输入到detector中去进行检测。虽然这样的方法十分简单，但其效果仍然是最佳，也后续启发了SNIP这一系列的工作。单论性能而言，multiscale training/testing仍然是一个不可缺少的组件。然而其缺点也是很明显的，测试时间大幅度提高，对于实际使用并不友好。另外一大类方法，也是Deep方法所独有的，也就是feature pyramid。最具代表性的工作便是经典的FPN了。这一类方法的思想是直接在feature层面上来近似image pyramid...

#Object Detection #CV

READ

目标检测小目标问题概述

Computer Vision

2026-01-11

在深度学习目标检测中，特别是人脸检测中，由于分辨率低、图像模糊、信息少、噪声多，小目标和小人脸的检测一直是一个实用和常见的难点问题。然而，在过去几年的发展中，也出现了一些提高小目标检测性能的解决方案。本文将对这些方法进行分析、整理和总结。图像金字塔和多尺度滑动窗口检测一开始，在深学习方法成为流行之前，对于不同尺度的目标，通常是从原始图像开始，使用不同的分辨率构建图像金字塔，然后使用分类器对金字塔的每一层进行滑动窗口的目标检测。在著名的人脸检测器MTCNN中，使用图像金字塔法检测不同分辨率的人脸目标。然而，这种方法通常是缓慢的，虽然构建图像金字塔可以使用卷积核分离加速或简单粗暴地缩放，但仍需要做多个特征提取，后来有人借其想法想出一个特征金字塔网络FPN，在不同层融合特征，只需要一次正向计...

#CV #Object Detection

READ

Anchor-Free

Computer Vision

2026-01-11

简介 "Anchorfree"（无锚点）是一种目标检测方法，与传统的使用锚框（anchor boxes）的方法（例如Faster RCNN）不同。在传统方法中，锚框是预先定义的、具有不同尺寸和长宽比的矩形区域，用于捕捉不同尺寸和形状的目标。而在"anchorfree"方法中，不再使用锚框，而是直接预测目标的位置和形状，通常使用网络输出的热图和偏移信息。以下是对"anchorfree"方法的一些关键理解点：无需预定义锚框：在传统目标检测方法中，需要事先定义和生成一组锚框，这可能需要大量的人工工作。而在"anchorfree"方法中，不再需要锚框，模型可以自动学习目标的位置和形状。直接位置和形状回归： "anchorfree"方法通过输出的热图来表示目标的存在概率，并使用偏移信息来定位目...

#Object Detection #CV

READ

Yolo系列

Computer Vision

2026-01-11

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。 faster RCNN中也直接用整张图作为输入，但是fasterRCNN整体还是采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了,而YOLO则采用直接回归的思路。 YOLO v1 将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的b...

#Object Detection #CV

READ

人脸识别Loss

Computer Vision

2026-01-11

超多分类的Softmax 2014年CVPR两篇超多分类的人脸识别论文：DeepFace和DeepID DeepFace Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to humanlevel performance in face verification [C]// CVPR, 2014. 4.4M训练集，训练6层CNN + 4096特征映射 + 4030类Softmax，综合如3D Aligement, model ensembel等技术，在LFW上达到97.35%。 DeepID Sun Y, Wang X, Tang X. Deep learning face representation fro...

#人脸识别 #CV

READ

A-Softmax

Computer Vision

2026-01-11

推导回顾一下二分类下的Softmax后验概率，即： [公式] 显然决策的分界在当 𝑝_1=𝑝_2 时，所以决策界面是 (𝑊_1−𝑊_2)𝑥+𝑏_1−𝑏_2=0 。我们可以将 𝑊^𝑇_𝑖𝑥+𝑏_𝑖 写成 ‖W_i^T‖⋅‖x‖cos⁡(θ_i)+b_i ，其中 θ_i 是 W_i 与 x 的夹角，如对 W_i 归一化且设偏置 b_i 为零（ ‖W_i‖=1 ， b_i=0 ），那么当 p_1=p_2 时，我们有 cos⁡(θ_1)−cos⁡(θ_2)=0 。从这里可以看到，如里一个输入的数据特征 x_i 属于 𝑦_𝑖 类，那么 θ_{y_i} 应该比其它所有类的角度都要小，也就是说在向量空间中 W_{y_i} 要更靠近 x_i 。我们用的是Softmax Loss，对于输入 x_i ，So...

#CV #人脸识别

READ

L1正则化与L2正则化

Machine Learning

2026-01-11

正则化正则化是一个通用的算法和思想，所以会产生过拟合现象的算法都可以使用正则化来避免过拟合。在经验风险最小化的基础上（也就是训练误差最小化），尽可能采用简单的模型，可以有效提高泛化预测精度。如果模型过于复杂，变量值稍微有点变动，就会引起预测精度问题。正则化之所以有效，就是因为其降低了特征的权重，使得模型更为简单。正则化一般会采用 L1 范式或者 L2 范式，其形式分别为 [Math] 和 [Math] 。 L1正则化 LASSO 回归，相当于为模型添加了这样一个先验知识： w 服从零均值拉普拉斯分布。首先看看拉普拉斯分布长什么样子： [公式] 由于引入了先验知识，所以似然函数这样写： [公式] 取 log 再取负，得到目标函数： [公式] 等价于原始损失函数的后面加上了 L1 正则，...

#Machine Learning

READ

Kernel LR (核逻辑回归)

Machine Learning

2026-01-11

Kernel Logistic Regression 介绍如何将Kernel Trick引入到Logistic Regression，以及LR与SVM的结合 SVM与正则化首先回顾SoftMargin SVM的原始问题: [公式] 其中 ξ_n 是训练数据违反边界的多少，没有违反的话， ξ_n=0 ，反之 ξ_n0 ，换句话说，目标函数的第二项就可以表示模型的损失。现在换一种方式来写，将二者结合起来: ξ_n=max(1−y_n(w^Tz^n+b),0) ，这一个等式就代表了上面的约束条件，这样上述问题，就与下面的无约束问题等价 [公式] 这种形式与之前的L2 正则项很类似: [公式] 在L2中，通过最小化 E_{in} 的同时控制 w 的大小，防止模型过度复杂。从正则化的角度来看的话，S...

#Machine Learning

READ

EM算法

Machine Learning

2026-01-11

EM算法也称期望最大化（ExpectationMaximum,简称EM）算法，它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM）， LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。 EM算法要解决的问题我们经常会从样本观察数据中，找出样本的模型参数。最常用的方法就是极大化模型分布的对数似然函数。但是在一些情况下，我们得到的观察数据有未观察到的隐含数据，此时我们未知的有隐含数据和模型参数，因而无法直接用极大化对数似然函数得到模型分布的参数。怎么办呢？这就是EM算法可以派上用场的地方了。 EM算法解决这个的思路是使用启发式的迭代方法，既然我们无法直接求出模型分布参数，那么我们可以先猜想隐含数据（EM算法的E步），接着基于观察数据和猜测的隐含数据一...

#Machine Learning

READ

过拟合解决方案

Machine Learning

2026-01-11

是什么过拟合（overfitting）是指在模型参数拟合过程中的问题，由于训练数据包含抽样误差，训练时，复杂的模型将抽样误差也考虑在内，将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好；在测试集上效果差。模型泛化能力弱。为什么为什么要解决过拟合现象？这是因为我们拟合的模型一般是用来预测未知的结果（不在训练集内），过拟合虽然在训练集上效果好，但是在实际使用时（测试集）效果差。同时，在很多问题上，我们无法穷尽所有状态，不可能将所有情况都包含在训练集上。所以，必须要解决过拟合问题。为什么在机器学习中比较常见？这是因为机器学习算法为了满足尽可能复杂的任务，其模型的拟合能力一般远远高于问题复杂度，也就是说，机器学习算法有「拟合出正确规则的前提下，进一步拟合噪声」的能力。而...

#Machine Learning

READ

随机森林（Random Forest）

Machine Learning

2026-01-11

随机森林 (Random Forests) 是一种利用CART决策树作为基学习器的 Bagging 集成学习算法。随机森林模型的构建过程如下：数据采样作为一种 Bagging 集成算法，随机森林同样采用有放回的采样，对于总体训练集 T ，抽样一个子集 T_{sub} 作为训练样本集。除此之外，假设训练集的特征个数为 d ，每次仅选择 k(k<d) 个构建决策树。因此，随机森林除了能够做到样本扰动外，还添加了特征扰动，对于特征的选择个数，推荐值为 k=log_2⁡d 。树的构建每次根据采样得到的数据和特征构建一棵决策树。在构建决策树的过程中，会让决策树生长完全而不进行剪枝。构建出的若干棵决策树则组成了最终的随机森林。随机森林在众多分类算法中表现十分出众，其主要的优点包括： 1. 由于...

#Machine Learning #Ensemble Learning

READ

AdaBoost

Machine Learning

2026-01-11

AdaBoost基本思路分类问题 Adaboost 是 Boosting 算法中有代表性的一个。原始的 Adaboost 算法用于解决二分类问题，因此对于一个训练集 [公式] 其中 [Math] ，，首先初始化训练集的权重 [公式] 根据每一轮训练集的权重 D_m ，对训练集数据进行抽样得到 T_m ，再根据 T_m 训练得到每一轮的基学习器 h_m 。通过计算可以得出基学习器 h_m 的误差为 e_m [公式] 根据基学习器的误差计算得出该基学习器在最终学习器中的权重系数 [公式] 为什么这样计算弱学习器权重系数？从上式可以看出，如果分类误差率 𝑒_𝑘 越大，则对应的弱分类器权重系数 [Math] 越小。也就是说，误差率小的弱分类器权重系数越大。具体为什么采用这个权重系数公式，见AdaB...

#Machine Learning #Ensemble Learning

READ

#

!

INCOMING TRANSMISSION

TridentNet

目标检测小目标问题概述

Anchor-Free

Yolo系列

人脸识别Loss

A-Softmax

L1正则化与L2正则化

Kernel LR (核逻辑回归)

EM算法

过拟合解决方案

随机森林（Random Forest）

AdaBoost