知识库 - Orange

RLE Loss

3D Model

2026-01-11

论文地址： 🔖 https://arxiv.org/pdf/2107.11291 代码地址：前言一般来说，我们可以把姿态估计任务分成两个流派：Heatmapbased和Regressionbased。其主要区别在于监督信息的不同，Heatmapbased方法监督模型学习的是高斯概率分布图，即把GroundTruth中每个点渲染成一张高斯热图，最后网络输出为K张特征图对应K个关键点，然后通过argmax或softargmax来获取最大值点作为估计结果。这种方法由于需要渲染高斯热图，且由于热图中的最值点直接对应了结果，不可避免地需要维持一个相对高分辨率的热图（常见的是64x64，再小的话误差下界过大会造成严重的精度损失），因此也就自然而然导致了很大的计算量和内存开销。 Regression...

#CV #3D

READ

Seed Thinking

Large Model

2026-01-11

SeedThinkingv1.5 SeedThinkingv1.5 是 ByteDance Seed 团队开发的一个先进推理模型，采用 MixtureofExperts (MoE) 架构，具有 200B 总参数和 20B 激活参数。该模型的核心创新在于其"思考后回答"的机制，在数学、编程、科学推理等任务上取得了卓越的性能。相比DeepSeek R1 ，在很多数据指标上都取得了一定程度的进步。数据训练数据分为两大类：可验证问题（有明确答案）和不可验证问题（无明确答案）。模型的推理能力主要来自第一部分，并能泛化到第二部分。可验证问题数据可验证数据主要包含 STEM数据，编程数据，以及逻辑推理数据 STEM 数据编程数据逻辑推理数据不可验证问题数据这其中的数据主要包含需要基于人类...

#LLM

READ

生成理解统一模型概述

Large Model

2026-01-11

Chameleon：生成理解统一模型的开山之作 🔖 https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixedmodal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像...

#Large Model #VLM #LLM

READ

IoU loss系列

Computer Vision

2026-01-11

一、IOU(Intersection over Union) 1. 特性(优点) IoU就是我们所说的交并比，是目标检测中最常用的指标，在anchorbased的方法中，他的作用不仅用来确定正样本和负样本，还可以用来评价输出框（predict box）和groundtruth的距离。 1. 可以说它可以反映预测检测框与真实检测框的检测效果。 1. 还有一个很好的特性就是尺度不变性，也就是对尺度不敏感（scale invariant），在regression任务中，判断predict box和gt的距离最直接的指标就是IoU。(满足非负性；同一性；对称性；三角不等性) [代码] 2. 作为损失函数会出现的问题(缺点) 1. 如果两个框没有相交，根据定义，IoU=0，不能反映两者的距离大小（重...

#Object Detection #CV

READ

Ring All-reduce

杂七杂八

2026-01-11

分布式深度学习里的通信严重依赖于规则的集群通信，诸如 allreduce, reducescatter, allgather 等，因此，实现高度优化的集群通信，以及根据任务特点和通信拓扑选择合适的集群通信算法至关重要。本文以数据并行经常使用的 allreduce 为例来展示集群通信操作的数学性质。 Allreduce 在干什么？如图 1 所示，一共 4个设备，每个设备上有一个矩阵（为简单起见，我们特意让每一行就一个元素），allreduce 操作的目的是，让每个设备上的矩阵里的每一个位置的数值都是所有设备上对应位置的数值之和。如图 2 所示， allreduce 可以通过 reducescatter 和 allgather 这两个更基本的集群通信操作来实现。基于 ring 状通信可以高...

#计算机基础

READ

VarifocalNet

Computer Vision

2026-01-11

Introduction 目标检测中NMS需要依据候选检测目标的排序来进行筛选框，如果分类得分较低，但是定位框准确会导致在NMS中将该bbox框被排除掉，因此这个排序的可靠性就非常重要。之前的工作主要采用IOU分支（IOUNet）与Centerness得分（FCOS）来作为大量候选检测的排序依据。然而，本文认为这些方法可以有效缓解分类得分和物体定位精度之间的不对齐问题。但是，它们是次优解的，因为将两个不完善的预测相乘可能会导致排名依旧变差，作者经过试验表明，通过这种方法实现的性能上限非常有限。此外，增加一个额外的网络分支来预测定位分数并不是一个很好的解决方案，并且会带来额外的计算负担。基于上述分析，作者提出：不采用预测一个额外的定位精确度得分（IOUaware Centerness）...

#CV #Object Detection

READ

Lightweight Backbones

Computer Vision

2026-01-11

💡 轻量级网络系列 Introduction Inception 在最初的版本 Inception/GoogleNet，其核心思想是利用多尺寸卷积核去观察输入数据。举个栗子，我们看某个景象由于远近不同，同一个物体的大小也会有所不同，那么不同尺度的卷积核观察的特征就会有这样的效果。于是就有了如下的网络结构图：于是我们的网络就变胖了，通过增加网络的宽度，提高了对于不同尺度的适应程度。但这样的话，计算量有点大了。 Pointwise Conv 为了减少在上面结构的参数量并降低计算量，于是在 Inception V1 的基础版本上加上了 1x1 卷积核，这就形成了 Inception V1 的最终网络结构，如下图。这个 1x1 卷积就是 Pointwise Convolution，简称 PW。利...

#CV #轻量化

READ

CenterNet

Computer Vision

2026-01-11

前言 anchorfree目标检测属于anchorfree系列的目标检测，相比于CornerNet做出了改进，使得检测速度和精度相比于onestage和twostage的框架都有不小的提高，尤其是与YOLOv3作比较，在相同速度的条件下，CenterNet的精度比YOLOv3提高了4个左右的点。 CenterNet不仅可以用于目标检测，还可以用于其他的一些任务，如肢体识别或者3D目标检测等等。那CenterNet相比于之前的onestage和twostage的目标检测有什么特点？ CenterNet的“anchor”仅仅会出现在当前目标的位置处而不是整张图上撒，所以也没有所谓的box overlap大于多少多少的算positive anchor这一说，也不需要区分这个anchor是物体还是...

#CV #Object Detection

READ

LLaMA 2

Large Model

2026-01-11

简介模型结构 32K词表大小 2T训练数据 4K上下文长度模型种类：7B、13B、70B(用了GQA) LLaMA 2Chat：三个版本——7B 13B 70B 同时 Meta 还发布了 LLaMA 2CHAT，其是基于 LLAMA 2 针对对话场景微调的版本，同样 7B、13B 和 70B 参数三个版本，具体的训练方法与ChatGPT类似 1. 先是监督微调LLaMA2得到SFT版本 (接受了成千上万个人类标注数据的训练，本质是问题答案对 ) 1. 然后使用人类反馈强化学习(RLHF)进行迭代优化先训练一个奖励模型然后在奖励模型/优势函数的指引下，通过拒绝抽样(rejection sampling)和近端策略优化(PPO)的方法迭代模型的生成策略 LLAMA 2 的性能表现更加接近...

#LLM

READ

Kimi k1.5—CoT强化训练

Large Model

2026-01-11

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#Policy Gradient #Reinforcement Learning #LLM #Large Model

READ

ThunderNet

Computer Vision

2026-01-11

网络整体介绍 ThunderNet的整体架构如下图所示。 ThunderNet使用320×320像素作为网络的输入分辨率。整体的网络结构分为两部分：Backbone部分和Detection部分。网络的骨干部分为SNet，SNet是基于ShuffleNetV2进行修改得到的。网络的检测部分，利用了压缩的RPN网络，修改自LightHead RCNN网络用以提高效率。并提出Context Enhancement Module整合局部和全局特征增强网络特征表达能力。并提出Spatial Attention Module空间注意模块，引入来自RPN的前后景信息用以优化特征分布。 backbone 部分 1.输入分辨率为了加快推理（前向操作）速度，作者使用320320大小的输入图像。需要注意的...

#CV #Object Detection #轻量化

READ

SNIP

Computer Vision

2026-01-11

1. 检测任务的困难图像分类算法，比如ResNeXt101 32 × 48d网络结构，在Imagenet数据集上的Top5准确率已经98%左右，Top1为85%。对于图像检测算法，最好的模型在coco数据集上的效果 AP_{50} 为62%，显然，总体上来看，准确率差了20个点左右，那么问题来了，为什么检测算法比识别算法的效果低这么多呢？ 1.1 尺度差异作者认为原因在于，检测任务中的目标存在较大的尺度变化（large scale variation）。作者统计了Imagenet和COCO数据集的特点，如下图，其中，横坐标表示目标相对于原图的比例，纵坐标表示累计分布（cumulation distribution function）。显然，由图中可以看出，COCO数据集中50%的目标相...

#CV #Object Detection

READ

#

!

INCOMING TRANSMISSION

RLE Loss

Seed Thinking

生成理解统一模型概述

IoU loss系列

Ring All-reduce

VarifocalNet

Lightweight Backbones

CenterNet

LLaMA 2

Kimi k1.5—CoT强化训练

ThunderNet

SNIP