知识库 - Orange

ThunderNet

Computer Vision

2026-01-11

网络整体介绍 ThunderNet的整体架构如下图所示。 ThunderNet使用320×320像素作为网络的输入分辨率。整体的网络结构分为两部分：Backbone部分和Detection部分。网络的骨干部分为SNet，SNet是基于ShuffleNetV2进行修改得到的。网络的检测部分，利用了压缩的RPN网络，修改自LightHead RCNN网络用以提高效率。并提出Context Enhancement Module整合局部和全局特征增强网络特征表达能力。并提出Spatial Attention Module空间注意模块，引入来自RPN的前后景信息用以优化特征分布。 backbone 部分 1.输入分辨率为了加快推理（前向操作）速度，作者使用320320大小的输入图像。需要注意的...

#CV #Object Detection #轻量化

READ

N-Gram

NLP

2026-01-11

1. 什么是NGram模型 NGram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的BiGram和三元的TriGram。说完了ngram模型的概念之后，下面讲解ngram的一般应用。 2. NGram模型用于评估语句是否合理如果...

#NLP

READ

词向量与Embedding

NLP

2026-01-11

词向量，英文名叫Word Embedding，按照字面意思，应该是词嵌入。说到词向量，不少读者应该会立马想到Google出品的Word2Vec，大牌效应就是不一样。另外，用Keras之类的框架还有一个Embedding层，也说是将词ID映射为向量。由于先入为主的意识，大家可能就会将词向量跟Word2Vec等同起来，而反过来问“Embedding是哪种词向量？”这类问题，尤其是对于初学者来说，应该是很混淆的。事实上，哪怕对于老手，也不一定能够很好地说清楚。这一切，还得从one hot说起... 五十步笑百步 one hot，中文可以翻译为“独热”，是最原始的用来表示字、词的方式。为了简单，本文以字为例，词也是类似的。假如词表中有“科、学、空、间、不、错”六个字，one hot就是给这六个字分...

#NLP

READ

SNIP

Computer Vision

2026-01-11

1. 检测任务的困难图像分类算法，比如ResNeXt101 32 × 48d网络结构，在Imagenet数据集上的Top5准确率已经98%左右，Top1为85%。对于图像检测算法，最好的模型在coco数据集上的效果 AP_{50} 为62%，显然，总体上来看，准确率差了20个点左右，那么问题来了，为什么检测算法比识别算法的效果低这么多呢？ 1.1 尺度差异作者认为原因在于，检测任务中的目标存在较大的尺度变化（large scale variation）。作者统计了Imagenet和COCO数据集的特点，如下图，其中，横坐标表示目标相对于原图的比例，纵坐标表示累计分布（cumulation distribution function）。显然，由图中可以看出，COCO数据集中50%的目标相...

#CV #Object Detection

READ

Path Aggregation Blcok

Computer Vision

2026-01-11

FPN 1.结构区别（a）图片金字塔生成特征金字塔：缩放图片比例（b）通常的CNN网络结构（c）多尺度特征融合的方式：像SSD（Single Shot Detector）就是采用这种多尺度特征融合的方式，没有上采样过程，即从网络不同层抽取不同尺度的特征做预测，这种方式不会增加额外的计算量。作者认为SSD算法中没有用到足够低层的特征（在SSD中，最低层的特征是VGG网络的conv4_3），而在作者看来足够低层的特征对于检测小物体是很有帮助的。（d）FPN：这是本文要讲的网络，FPN主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。通过高层特征进行上采样和低层特征进行自顶向下的连接，而且每一层都会进行预测。 2....

#Object Detection #CV

READ

多尺度问题概述

Computer Vision

2026-01-11

一、传统的图像金字塔最开始在深度学习方法流行之前，对于不同尺度的目标，大家普遍使用将原图构建出不同分辨率的图像金字塔，再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标，以求在金字塔底部检测出小目标；或者只用一个原图，在原图上，用不同分辨率的分类器来检测目标，以求在比较小的窗口分类器中检测到小目标。经典的基于简单矩形特征(Haar)+级联Adaboost与Hog特征+SVM的DPM目标识别框架，均使用图像金字塔的方式处理多尺度目标，早期的CNN目标识别框架同样采用该方式，但对图像金字塔中的每一层分别进行CNN提取特征，耗时与内存消耗均无法满足需求。但该方式毫无疑问仍然是最优的。值得一提的是，其实目前大多数深度学习算法提交结果进行排名的时候，大多使用多尺度测试。同时类似于SNIP使用...

#CV #Object Detection

READ

目标检测的遮挡问题概述

Computer Vision

2026-01-11

SoftNMS/DIoUNMS softnms参考： SoftNMS 可以看到，SoftNMS与传统NMS的区别在于对score分数调整的处理。如果是传统的NMS操作，那么当 B 中的 b_i 和 [Math] 的IoU值大于阈值 N_t ，那么就从 B 和 S 中去除该box；对于SoftNMS而言是先计算 [Math] 与 b_i 的IoU，然后IoU经过一个函数输出最后与 s_i 相乘最终得到box的分数。其中 s_i 的score遵循IoU越大，分数越低的原则（IoU越大，越可能是背景），所以 s_i 定义如下：考虑到上式是不连续的，并且当达到N_t的NMS阈值时会施加突然的惩罚，如果惩罚函数是连续的，那将是理想的，否则它可能导致检测结果的排序列表的突然改变（集合D中的scor...

#CV #Object Detection

READ

SNIPER

Computer Vision

2026-01-11

SNIPER的关键是减少了SNIP的计算量。SNIP借鉴了multiscale training的思想进行训练，multiscale training是用图像金字塔作为模型的输入，这种做法虽然能够提高模型效果，但是计算量的增加也非常明显，因为模型需要处理每个scale图像的每个像素，而SNIPER（Scale Normalization for Image Pyramids with Efficient Resampling）算法以适当的比例处理ground truth（称为chips）周围的上下文区域，在训练期间每个图像生成的chips的数量会根据场景复杂度而自适应地变化，由于SNIPER在采样后的低分辨率的chips上运行，故其可以在训练期间收益于Batch Normalization，...

#CV #Object Detection

READ

Faster R-CNN

Computer Vision

2026-01-11

总体流程 RPN RPN在Extractor输出的feature maps的基础之上，先增加了一个3x3卷积，然后利用两个1x1的卷积分别进行二分类（是否为正样本）和位置回归。进行分类的卷积核通道数为9×2（9个anchor，每个anchor二分类，使用交叉熵损失），进行回归的卷积核通道数为9×4（9个anchor，每个anchor有4个位置参数）。接下来RPN做的事情就是利用（AnchorTargetCreator）将20000多个候选的anchor选出2000个proposal并采样256个positive 进行分类和回归位置loss计算。具体过程如下： proposal 前向过程中会做 NMS ： 1. 对所有 anchors 做前背景分类和bbox regression回归（lea...

#CV #Object Detection

READ

Swin-Transformer

Computer Vision

2026-01-11

前言首先看论文题目。Swin Transformer： Hierarchical Vision Transformer using Shifted Windows。即：Swin Transformer是一个用了移动窗口的层级式Vision Transformer 所以Swin来自于 Shifted Windows ，它能够使Vision Transformer像卷积神经网络一样，做层级式的特征提取，这样提取出来的特征具有多尺度的概念，这也是 Swin Transformer这篇论文的主要贡献。标准的Transformer直接用到视觉领域有一些挑战，即：多尺度问题：比如一张图片里的各种物体尺度不统一，NLP中没有这个问题；分辨率太大：如果将图片的每一个像素值当作一个token直接输...

#CV #transformer

READ

Object-detection中mAP计算

Computer Vision

2026-01-11

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: PrecisionRecall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假...

#CV #DL基础 #Object Detection

READ

NMS系列

Computer Vision

2026-01-11

NMS 过程： 1. 根据分类概率从小到大排序ABCDEF 1. 从最大概率F开始，F与A～E的IOU是否大于阈值 1. 大于的扔掉，从剩下的当中继续重复2～3 [代码] SoftNMS NMS算法保留score最高的预测框，并将与当前预测框重叠较多的proposals视作冗余，显然，在实际的检测任务中，这种思路有明显的缺点，比如对于稠密物体检测，当同类的两个目标距离较近时，如果使用原生的nms，就会导致其中一个目标不能被召回，为了提高这种情况下目标检测的召回率，SoftNMS应运而生。对于FasterRCNN在MSCOCO数据集上的结果，将NMS改成SoftNMS，mAP提升了1.1%。它认为重叠较多的proposals也有可能包含有效目标，只不过重叠区域越大可能性越小。参见下图，NMS...

#Object Detection #CV

READ

#

!

INCOMING TRANSMISSION

ThunderNet

N-Gram

词向量与Embedding

SNIP

Path Aggregation Blcok

多尺度问题概述

目标检测的遮挡问题概述

SNIPER

Faster R-CNN

Swin-Transformer

Object-detection中mAP计算

NMS系列