知识库 - Orange

TSN (Temporal Segment Networks)

3D Model

2026-01-11

简介这篇ECCV2016的文章主要提出TSN（temporal segment network）结构用来做视频的动作识别。TSN可以看做是双流（two stream）系列的改进,在此基础上，文章要解决两个问题：1、是longrange视频的行为判断问题（有些视频的动作时间较长）。2、是解决数据少的问题，数据量少会使得一些深层的网络难以应用到视频数据中，因为过拟合会比较严重。针对第一个问题，首先，为什么目前的双流结构网络难以学习到视频的长时间信息？因为其针对的主要是单帧图像或者短时间内的一堆帧图像数据，但这对于时间跨度较长的视频动作检测而言是不够的。因此采用更加密集的图像帧采样方式来获取视频的长时间信息是比较常用的方法，但是这样做会增加不少时间成本，同时作者发现视频的连续帧之间存在冗余，因...

#video

READ

TSM (Temporal Shift Module)

3D Model

2026-01-11

Related Work: 大概过一下之前的几个重要工作（也是本文性能对比的主要几个stateoftheart）: 1. TSN：视频动作/行为识别的基本框架，将视频帧下采样（分成K个Segment，各取一帧）后接2D CNN对各帧进行处理+fusion 1. TRN：对视频下采样出来的 frames 的deep feature，使用 MLP 来融合，建立帧间temporal context 联系。最后将多级（不同采样率）出来的结果进行再一步融合，更好表征shortterm 和 longterm 关系。 1. ECO系列： 1. NL I3D+GCN：使用 nonlocal I3D来捕获longrange时空特征，使用 spacetime region graphs 来获取物体区域间的关联及...

#video

READ

TEA (Temporal Excitation and Aggregation)

3D Model

2026-01-11

TEA (Temporal Excitation and Aggregation)

Motivation Motion feature 学习过程中存在的问题：利用 optical flow 存储和计算的开销太大现阶段的网络设计，spatiotemporal 建模和Motion feature 建模分离比如STM 直接 Add spatio temporal feature 和 motion encoding feature TEA 的 ME 则利用了 Motion feature 做 channeI attention 过去的建模都 focus 在 framelevel motion，更好的建模方式 featurelevel motion 长时建模存在的问题：单帧过backbone，最后的feature 进行 temporal max/average poolin...

#video

READ

TDN (Temporal Difference Networks)

3D Model

2026-01-11

研究动机目前 3Dbased 的方法在大规模的 scenebased 的数据集(如kinetics)上相对于2D的方法取得了更好的效果，但是3Dbased也存在一些明显的问题： 3Dbased 的网络参数量大，计算开销大，训练的 scheduler 更长，inference latency 明显慢于 2Dbased 的方法。 3D卷积其实并不能很好得学到时序上信息的变化，而且3D卷积学出来的时序Kernel的weight的分布基本一致，更多的还是对时序上的信息做一种 smooth aggregation。这一点在之前的工作TANet 中有比较详细的讨论。也基于此，3Dbased 的网络在SomethingSomething这种对时序信息比较敏感的video数据集上并不能取得很好的效果( 得...

#video

READ

video model 概述

3D Model

2026-01-11

Classification，Detection Classification：给定预先裁剪好的视频片段，预测其所属的行为类别 Detection：视频是未经过裁剪的，需要先进行人的检测where和行为定位（分析行为的始末时间）when，再进行行为的分类what。通常所说的行为识别更偏向于对时域预先分割好的序列进行行为动作的分类，即 Trimmed Video Action Classification。 TwoStream Twostream convolutional networks 简介 TwoStream CNN网络顾名思义分为两个部分， 1. 空间流处理RGB图像，得到形状信息; 1. 时间流/光流处理光流图像，得到运动信息。两个流最后经过softmax后，做分类分数的融合，...

#video

READ

Gaze采集标定方案

3D Model

2026-01-11

整体流程： [代码] 0. 数据预处理这个步骤主要是crop四路数据，及生成后续步骤所需要的yaml文件。 1. 四路相机与双路相机标定内参标定 [代码] 这里主要的函数就是： pts = cv2.findChessboardCorners(img, (board_width, board_height))[1] cv2.cornerSubPix(gray, pts, (12, 12), (1, 1), (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_COUNT, 30, 0.1)) det, intr, dist, _, _ = cv2.calibrateCamera(obj_pts, img_pts, self.imgSize, None, No...

#3D

READ

VLM评价指标

Large Model

2026-01-11

这是OpenCompass的offitial ranking 榜单 🔖 https://rank.opencompass.org.cn/home MMBench 鉴于现行评测方式所存在的问题，我们重新定义了一套针对当前多模态大模型的评测流程——MMBench。其主要包含两个方面: 自上而下的能力维度设计，根据定义的能力维度构造了一个评测数据集引入 ChatGPT，以及提出了 CircularEval 的评测方式，使得评测的结果更加稳定 Paper 链接: 🔖 https://arxiv.org/pdf/2307.06281 github：数据集数据集构造主要目的是对模型的各种能力进行全方位的考察，所以我们自上而下定义了三级能力维度 (L1L3)，第一级维度（L1）包含感知与推理两项...

#VLM

READ

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#VLM #Large Model #Reinforcement Learning

READ

UI-TARS

Large Model

2026-01-11

UITARS 简介 UITARS（User Interface Task Automation and Reasoning System）是由字节跳动（ByteDance）研发的原生 GUI 智能体模型：输入方式：仅使用屏幕截图作为视觉输入交互方式：执行类人操作（键盘输入、鼠标点击、拖拽等）模型特性：端到端的原生智能体模型，无需复杂的中间件或框架传统 GUI 智能体的开发往往依赖于文本信息，例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展，但它们也存在一些局限性：平台不一致性：不同平台的 GUI 结构差异很大，导致智能体难以跨平台通用。信息冗余：文本信息往往过于冗长，增加了模型的处理负担。访问限制：获取系统底层的文本信息通常需要较高的权限，限制了应用的范围。模块化...

#VLM #Agent

READ

RLE Loss

3D Model

2026-01-11

论文地址： 🔖 https://arxiv.org/pdf/2107.11291 代码地址：前言一般来说，我们可以把姿态估计任务分成两个流派：Heatmapbased和Regressionbased。其主要区别在于监督信息的不同，Heatmapbased方法监督模型学习的是高斯概率分布图，即把GroundTruth中每个点渲染成一张高斯热图，最后网络输出为K张特征图对应K个关键点，然后通过argmax或softargmax来获取最大值点作为估计结果。这种方法由于需要渲染高斯热图，且由于热图中的最值点直接对应了结果，不可避免地需要维持一个相对高分辨率的热图（常见的是64x64，再小的话误差下界过大会造成严重的精度损失），因此也就自然而然导致了很大的计算量和内存开销。 Regression...

#CV #3D

READ

生成理解统一模型概述

Large Model

2026-01-11

Chameleon：生成理解统一模型的开山之作 🔖 https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixedmodal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像...

#Large Model #VLM #LLM

READ

多模态思路之—无损输入

Large Model

2026-01-11

问题背景首先简化一下问题，本文所讨论的多模态，主要指图文混合的双模态，即输入和输出都可以是图文。可能有不少读者的第一感觉是：多模态模型难道不也是烧钱堆显卡，Transformer“一把梭”，最终“大力出奇迹”吗？其实没那么简单。先看文本生成，事实上文本生成自始至终都只有一条主流路线，那就是语言模型，即建模条件概率 [Math] ，不论是最初的 ngram语言模型，还是后来的Seq2Seq、GPT，都是这个条件概率的近似。也就是说，一直以来，人们对“实现文本生成需要往哪个方向走”是很明确的，只是背后所用的模型有所不同，比如LSTM、CNN、Attention乃至最近复兴的线性RNN等。所以，文本生成确实可以All in Transformer来大力出奇迹，因为方向是标准的、清晰的。然而，...

#VLM

READ

#

!

INCOMING TRANSMISSION

TSN (Temporal Segment Networks)

TSM (Temporal Shift Module)

TEA (Temporal Excitation and Aggregation)

TDN (Temporal Difference Networks)

video model 概述

Gaze采集标定方案

VLM评价指标

Kimi-VL

UI-TARS

RLE Loss

生成理解统一模型概述

多模态思路之—无损输入