知识库 - Orange

分割指标

Computer Vision

2026-01-11

PA Pixel Accuracy(PA，像素精度)：这是最简单的度量，为标记正确的像素占总像素的比例。 [公式] 图像中共有k+1（包含背景）类， p_{ii} 表示将第i类分成第 i 类的像素数量(正确分类的像素数量)， p_{ij} 表示将第 i 类分成第 j 类的像素数量(所有像素数量) 因此该比值表示正确分类的像素数量占总像素数量的比例。优点：简单缺点：如果图像中大面积是背景，而目标较小，即使将整个图片预测为背景，也会有很高的PA得分，因此该指标不适用于评价以小目标为主的图像分割效果。 MPA Mean Pixel Accuracy(MPA，均像素精度)：是PA的一种简单提升，计算每个类内被正确分类像素数的比例，之后求所有类的平均。 [公式] MIoU Mean Interse...

#CV #Segmentation

READ

进程与线程

杂七杂八

2026-01-11

进程一个在内存中运行的应用程序。每个进程都有自己独立的一块内存空间，一个进程可以有多个线程，比如在Windows系统中，一个运行的xx.exe就是一个进程。线程进程中的一个执行任务（控制单元），负责当前进程中程序的执行。一个进程至少有一个线程，一个进程可以运行多个线程，多个线程可共享数据。与进程不同的是同类的多个线程共享进程的堆和方法区资源，但每个线程有自己的程序计数器、虚拟机栈和本地方法栈，所以系统在产生一个线程，或是在各个线程之间作切换工作时，负担要比进程小得多，也正因为如此，线程也被称为轻量级进程。 Java 程序天生就是多线程程序，我们可以通过 JMX 来看一下一个普通的 Java 程序有哪些线程，代码如下。 [代码] 上述程序输出如下（输出内容可能不同，不用太纠结下面每个线...

#计算机基础

READ

Additional blocks

Computer Vision

2026-01-11

SPP (spatial pyramid pooling layer) SPP applies a slightly different strategy in detecting objects of different scales. It replaces the last pooling layer (after the last convolutional layer) with a spatial pyramid pooling layer. The feature maps are spatially divided into m×m bins with m, say, equals 1, 2, and 4 respectively. Then a maximum pool i...

#CV #Object Detection

READ

DETR

Computer Vision

2026-01-11

原理分析网络架构: 本文的任务是Object detection，用到的工具是Transformers，特点是Endtoend。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他...

#CV #transformer #Object Detection

READ

UI-TARS

Large Model

2026-01-11

UITARS 简介 UITARS（User Interface Task Automation and Reasoning System）是由字节跳动（ByteDance）研发的原生 GUI 智能体模型：输入方式：仅使用屏幕截图作为视觉输入交互方式：执行类人操作（键盘输入、鼠标点击、拖拽等）模型特性：端到端的原生智能体模型，无需复杂的中间件或框架传统 GUI 智能体的开发往往依赖于文本信息，例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展，但它们也存在一些局限性：平台不一致性：不同平台的 GUI 结构差异很大，导致智能体难以跨平台通用。信息冗余：文本信息往往过于冗长，增加了模型的处理负担。访问限制：获取系统底层的文本信息通常需要较高的权限，限制了应用的范围。模块化...

#Agent #VLM

READ

人脸识别概述

Computer Vision

2026-01-11

简介一个完整的人脸识别系统包含以下几个模块 Face Detection: 人脸检测 Face Alignment：基于人脸关键点坐标对齐到正则坐标系下坐标 Face Recognition：基于对齐人脸进行识别人脸识别的算法流程人脸的识别流程：面部姿态处理(处理姿态，亮度，表情，遮挡)，特征提取，人脸比对。面部处理 face processing 这部分主要对姿态（主要）、亮度、表情、遮挡进行处理，可提升FR模型性能主要包含两种处理方式： 1. "Onetomany Augmentation": 从单个图像生成不同姿态的图像，使模型学习到姿态不变性的表示 1. "Manytoone Normalization": 从多个不同姿态的图像中恢复人脸图像的标准视图特征提取 Backb...

#CV #人脸识别

READ

RLE Loss

3D Model

2026-01-11

论文地址： 🔖 https://arxiv.org/pdf/2107.11291 代码地址：前言一般来说，我们可以把姿态估计任务分成两个流派：Heatmapbased和Regressionbased。其主要区别在于监督信息的不同，Heatmapbased方法监督模型学习的是高斯概率分布图，即把GroundTruth中每个点渲染成一张高斯热图，最后网络输出为K张特征图对应K个关键点，然后通过argmax或softargmax来获取最大值点作为估计结果。这种方法由于需要渲染高斯热图，且由于热图中的最值点直接对应了结果，不可避免地需要维持一个相对高分辨率的热图（常见的是64x64，再小的话误差下界过大会造成严重的精度损失），因此也就自然而然导致了很大的计算量和内存开销。 Regression...

#3D #CV

READ

IoU loss系列

Computer Vision

2026-01-11

一、IOU(Intersection over Union) 1. 特性(优点) IoU就是我们所说的交并比，是目标检测中最常用的指标，在anchorbased的方法中，他的作用不仅用来确定正样本和负样本，还可以用来评价输出框（predict box）和groundtruth的距离。 1. 可以说它可以反映预测检测框与真实检测框的检测效果。 1. 还有一个很好的特性就是尺度不变性，也就是对尺度不敏感（scale invariant），在regression任务中，判断predict box和gt的距离最直接的指标就是IoU。(满足非负性；同一性；对称性；三角不等性) [代码] 2. 作为损失函数会出现的问题(缺点) 1. 如果两个框没有相交，根据定义，IoU=0，不能反映两者的距离大小（重...

#CV #Object Detection

READ

Ring All-reduce

杂七杂八

2026-01-11

分布式深度学习里的通信严重依赖于规则的集群通信，诸如 allreduce, reducescatter, allgather 等，因此，实现高度优化的集群通信，以及根据任务特点和通信拓扑选择合适的集群通信算法至关重要。本文以数据并行经常使用的 allreduce 为例来展示集群通信操作的数学性质。 Allreduce 在干什么？如图 1 所示，一共 4个设备，每个设备上有一个矩阵（为简单起见，我们特意让每一行就一个元素），allreduce 操作的目的是，让每个设备上的矩阵里的每一个位置的数值都是所有设备上对应位置的数值之和。如图 2 所示， allreduce 可以通过 reducescatter 和 allgather 这两个更基本的集群通信操作来实现。基于 ring 状通信可以高...

#计算机基础

READ

VarifocalNet

Computer Vision

2026-01-11

Introduction 目标检测中NMS需要依据候选检测目标的排序来进行筛选框，如果分类得分较低，但是定位框准确会导致在NMS中将该bbox框被排除掉，因此这个排序的可靠性就非常重要。之前的工作主要采用IOU分支（IOUNet）与Centerness得分（FCOS）来作为大量候选检测的排序依据。然而，本文认为这些方法可以有效缓解分类得分和物体定位精度之间的不对齐问题。但是，它们是次优解的，因为将两个不完善的预测相乘可能会导致排名依旧变差，作者经过试验表明，通过这种方法实现的性能上限非常有限。此外，增加一个额外的网络分支来预测定位分数并不是一个很好的解决方案，并且会带来额外的计算负担。基于上述分析，作者提出：不采用预测一个额外的定位精确度得分（IOUaware Centerness）...

#CV #Object Detection

READ

Lightweight Backbones

Computer Vision

2026-01-11

💡 轻量级网络系列 Introduction Inception 在最初的版本 Inception/GoogleNet，其核心思想是利用多尺寸卷积核去观察输入数据。举个栗子，我们看某个景象由于远近不同，同一个物体的大小也会有所不同，那么不同尺度的卷积核观察的特征就会有这样的效果。于是就有了如下的网络结构图：于是我们的网络就变胖了，通过增加网络的宽度，提高了对于不同尺度的适应程度。但这样的话，计算量有点大了。 Pointwise Conv 为了减少在上面结构的参数量并降低计算量，于是在 Inception V1 的基础版本上加上了 1x1 卷积核，这就形成了 Inception V1 的最终网络结构，如下图。这个 1x1 卷积就是 Pointwise Convolution，简称 PW。利...

#轻量化 #CV

READ

CenterNet

Computer Vision

2026-01-11

前言 anchorfree目标检测属于anchorfree系列的目标检测，相比于CornerNet做出了改进，使得检测速度和精度相比于onestage和twostage的框架都有不小的提高，尤其是与YOLOv3作比较，在相同速度的条件下，CenterNet的精度比YOLOv3提高了4个左右的点。 CenterNet不仅可以用于目标检测，还可以用于其他的一些任务，如肢体识别或者3D目标检测等等。那CenterNet相比于之前的onestage和twostage的目标检测有什么特点？ CenterNet的“anchor”仅仅会出现在当前目标的位置处而不是整张图上撒，所以也没有所谓的box overlap大于多少多少的算positive anchor这一说，也不需要区分这个anchor是物体还是...

#CV #Object Detection

READ

#

!

INCOMING TRANSMISSION

分割指标

进程与线程

Additional blocks

DETR

UI-TARS

人脸识别概述

RLE Loss

IoU loss系列

Ring All-reduce

VarifocalNet

Lightweight Backbones

CenterNet