知识库 - Orange

PointConv

3D Model

2026-01-11

概括这篇文章将卷积比较自然地拓展到点云的情形，思路很赞！文章的主要创新点：“weight function”和“density function”，并能实现translationinvariance和permutationinvariance，可以实现层级化特征提取，而且能自然推广到其deconvolution的情形实现分割，在二维CIFAR10图像分类任务中精度堪比CNN（表明能够充分近似卷积网络），达到了SOTA的性能。缺点：每个kernel都需要由“kernel function”生成，而“kernel function”实质上是一个CNN网络，计算量比较大。思想察觉到：二维卷积中pixel的相对centroid位置与kernel vector的生成方式有关。以二维卷积为例...

#3D

READ

VoteNet

3D Model

2026-01-11

Hough Voting 本文的标题是Deep Hough Voting，先来说一下Hough Voting。用Hough变换检测直线大家想必都听过：对于一条直线，可以使用(r, θ)两个参数进行描述，那么对于图像中的一点，过这个点的直线有很多条，可以生成一系列的(r, θ)，在参数平面内就是一条曲线，也就是说，一个点对应着参数平面内的一个曲线。那如果有很多个点，则会在参数平面内生成很多曲线。那么，如果这些点是能构成一条直线的，那么这条直线的参数(r, θ)就在每条曲线中都存在，所以看起来就像是多条曲线相交在（r,θ）。可以用多条曲线投票的方式来看，其他点都是很少的票数，而（r,θ）则票数很多，所以直线的参数就是（r,θ）。所以Hough变换的思想就是在于，在参数空间内进行投票，投票得数...

#3D

READ

SO-Net

3D Model

2026-01-11

概括针对一些网络在处理point cloud时的缺点，如：不能对点的空间分布进行建模（例如PointNet++，只是能获取局部信息不能得到局部区域之间的空间关系），提出了SONet。SO的含义是利用Selforganizing map的Net。结果：它具有能够对点的空间分布进行建模、层次化特征提取、可调节的感受野范围的优点，并能够用于多种任务如重建、分类、分割等等。取得了相似或超过SOTA的性能，因为可并行化和架构简单使得训练速度很快。贡献： TODO IDEA：作者发现将CNN直接用于SOM图上性能不升反降，为什么（推测：可能是SOM的2D map并不是保持了原本的空间对应关系，可能nodes之间是乱序的，导致用conv2d时精度反而降低）？难点如何对local regions之...

#3D

READ

Stacked Hourglass Networks

3D Model

2026-01-11

论文介绍了一种新的网络结构用于人体姿态检测，作者在论文中展现了不断重复bottomup、topdown过程以及运用intermediate supervison（中间监督）对于网络性能的提升，下面来介绍Stacked Hourglass Networks. 简介理解人类的姿态对于一些高级的任务比如行为识别来说特别重要，而且也是一些人机交互任务的基础。作者提出了一种新的网络结构Stacked Hourglass Networks来对人体的姿态进行识别，这个网络结构能够捕获并整合图像所有尺度的信息。之所以称这种网络为Stacked Hourglass Networks，主要是它长得很像堆叠起来的沙漏，如下图所示：这种堆叠在一起的Hourglass模块结构是对称的，bottomup过程将图片从...

#3D

READ

End-to-End Learning for Joint Detection and Grouping

3D Model

2026-01-11

End-to-End Learning for Joint Detection and Grouping

简介作者认为许多计算机视觉的任务可以看作是检测和分组问题检测一些小的单元，然后将它们组合成更大的单元，例如，多人目标检测可以通过检测人的关节点然后再将它们进行分组（属于同一个人的关节点为一组）解决；实例分割问题可以看作是检测一些相关的像素然后将它们组合成一个目标实例。 Associative Embedding是一种表示关节检测和分组任务的输出的新方法，其基本思想是为每次检测引入一个实数，用作识别对象所属组的“tag”，换句话说，标签将每个检测与同一组中的其他检测相关联。作者使用一个损失函数使得如果相应的检测属于ground truth中的相同组则促使这一对标签具有相似的值。需要注意的是，这里标签具体的值并不重要，重要的是不同标签之间的差异。这篇其实是源自Stacked Hourglas...

#3D

READ

Gaze采集标定方案

3D Model

2026-01-11

整体流程： [代码] 0. 数据预处理这个步骤主要是crop四路数据，及生成后续步骤所需要的yaml文件。 1. 四路相机与双路相机标定内参标定 [代码] 这里主要的函数就是： pts = cv2.findChessboardCorners(img, (board_width, board_height))[1] cv2.cornerSubPix(gray, pts, (12, 12), (1, 1), (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_COUNT, 30, 0.1)) det, intr, dist, _, _ = cv2.calibrateCamera(obj_pts, img_pts, self.imgSize, None, No...

#3D

READ

VLM评价指标

Large Model

2026-01-11

这是OpenCompass的offitial ranking 榜单 🔖 https://rank.opencompass.org.cn/home MMBench 鉴于现行评测方式所存在的问题，我们重新定义了一套针对当前多模态大模型的评测流程——MMBench。其主要包含两个方面: 自上而下的能力维度设计，根据定义的能力维度构造了一个评测数据集引入 ChatGPT，以及提出了 CircularEval 的评测方式，使得评测的结果更加稳定 Paper 链接: 🔖 https://arxiv.org/pdf/2307.06281 github：数据集数据集构造主要目的是对模型的各种能力进行全方位的考察，所以我们自上而下定义了三级能力维度 (L1L3)，第一级维度（L1）包含感知与推理两项...

#VLM

READ

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#Reinforcement Learning #VLM #Large Model

READ

UI-TARS

Large Model

2026-01-11

UITARS 简介 UITARS（User Interface Task Automation and Reasoning System）是由字节跳动（ByteDance）研发的原生 GUI 智能体模型：输入方式：仅使用屏幕截图作为视觉输入交互方式：执行类人操作（键盘输入、鼠标点击、拖拽等）模型特性：端到端的原生智能体模型，无需复杂的中间件或框架传统 GUI 智能体的开发往往依赖于文本信息，例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展，但它们也存在一些局限性：平台不一致性：不同平台的 GUI 结构差异很大，导致智能体难以跨平台通用。信息冗余：文本信息往往过于冗长，增加了模型的处理负担。访问限制：获取系统底层的文本信息通常需要较高的权限，限制了应用的范围。模块化...

#VLM #Agent

READ

Autoregressive models 概述

Generative Model

2026-01-11

给定一个包含 n 维数据 x 的数据集 D , 简单起见，假设数据 [Math] . 由于真正对联合分布建模的时候， x，y 都是随机变量，故而只需讨论 p(X)=p(x_1,...,x_n) 即可，毕竟只需要令 x_n=y 即可。给定一个具体的任务，如MNIST中的手写数字二值图分类，从Generative的角度进行Represent，并在Inference中Learning. 下面先介绍：描述如何对这个MINST任务建模 p(X,Y) （Representation）对MNIST任务建模对于一张pixel为 [Math] 大小的图片，令 x_1 表示第一个pixel的随机变量， [Math] ，需明确：任务目标：学习一个模型分布 [Math] ，使采样时 [Math] ， x ...

#Autoregressive #Generating Model

READ

RLE Loss

3D Model

2026-01-11

论文地址： 🔖 https://arxiv.org/pdf/2107.11291 代码地址：前言一般来说，我们可以把姿态估计任务分成两个流派：Heatmapbased和Regressionbased。其主要区别在于监督信息的不同，Heatmapbased方法监督模型学习的是高斯概率分布图，即把GroundTruth中每个点渲染成一张高斯热图，最后网络输出为K张特征图对应K个关键点，然后通过argmax或softargmax来获取最大值点作为估计结果。这种方法由于需要渲染高斯热图，且由于热图中的最值点直接对应了结果，不可避免地需要维持一个相对高分辨率的热图（常见的是64x64，再小的话误差下界过大会造成严重的精度损失），因此也就自然而然导致了很大的计算量和内存开销。 Regression...

#CV #3D

READ

生成理解统一模型概述

Large Model

2026-01-11

Chameleon：生成理解统一模型的开山之作 🔖 https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixedmodal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像...

#LLM #VLM #Large Model

READ

#

!

INCOMING TRANSMISSION

PointConv

VoteNet

SO-Net

Stacked Hourglass Networks

End-to-End Learning for Joint Detection and Grouping

Gaze采集标定方案

VLM评价指标

Kimi-VL

UI-TARS

Autoregressive models 概述

RLE Loss

生成理解统一模型概述