知识库 - Orange

TSM (Temporal Shift Module)

3D Model

2026-01-11

Related Work: 大概过一下之前的几个重要工作（也是本文性能对比的主要几个stateoftheart）: 1. TSN：视频动作/行为识别的基本框架，将视频帧下采样（分成K个Segment，各取一帧）后接2D CNN对各帧进行处理+fusion 1. TRN：对视频下采样出来的 frames 的deep feature，使用 MLP 来融合，建立帧间temporal context 联系。最后将多级（不同采样率）出来的结果进行再一步融合，更好表征shortterm 和 longterm 关系。 1. ECO系列： 1. NL I3D+GCN：使用 nonlocal I3D来捕获longrange时空特征，使用 spacetime region graphs 来获取物体区域间的关联及...

#video

READ

TEA (Temporal Excitation and Aggregation)

3D Model

2026-01-11

TEA (Temporal Excitation and Aggregation)

Motivation Motion feature 学习过程中存在的问题：利用 optical flow 存储和计算的开销太大现阶段的网络设计，spatiotemporal 建模和Motion feature 建模分离比如STM 直接 Add spatio temporal feature 和 motion encoding feature TEA 的 ME 则利用了 Motion feature 做 channeI attention 过去的建模都 focus 在 framelevel motion，更好的建模方式 featurelevel motion 长时建模存在的问题：单帧过backbone，最后的feature 进行 temporal max/average poolin...

#video

READ

TDN (Temporal Difference Networks)

3D Model

2026-01-11

研究动机目前 3Dbased 的方法在大规模的 scenebased 的数据集(如kinetics)上相对于2D的方法取得了更好的效果，但是3Dbased也存在一些明显的问题： 3Dbased 的网络参数量大，计算开销大，训练的 scheduler 更长，inference latency 明显慢于 2Dbased 的方法。 3D卷积其实并不能很好得学到时序上信息的变化，而且3D卷积学出来的时序Kernel的weight的分布基本一致，更多的还是对时序上的信息做一种 smooth aggregation。这一点在之前的工作TANet 中有比较详细的讨论。也基于此，3Dbased 的网络在SomethingSomething这种对时序信息比较敏感的video数据集上并不能取得很好的效果( 得...

#video

READ

video model 概述

3D Model

2026-01-11

Classification，Detection Classification：给定预先裁剪好的视频片段，预测其所属的行为类别 Detection：视频是未经过裁剪的，需要先进行人的检测where和行为定位（分析行为的始末时间）when，再进行行为的分类what。通常所说的行为识别更偏向于对时域预先分割好的序列进行行为动作的分类，即 Trimmed Video Action Classification。 TwoStream Twostream convolutional networks 简介 TwoStream CNN网络顾名思义分为两个部分， 1. 空间流处理RGB图像，得到形状信息; 1. 时间流/光流处理光流图像，得到运动信息。两个流最后经过softmax后，做分类分数的融合，...

#video

READ

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

Large Model

2026-01-11

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

PrefixTuning Paper: 2021.1 Optimizing Continuous Prompts for GenerationGithub：https://github.com/XiangLi1999/PrefixTuningPrompt: Continus Prefix PromptTask & Model：BART(Summarization), GPT2(Table2Text) 最早提出Prompt微调的论文之一，其实是可控文本生成领域的延伸，因此只针对摘要和Table2Text这两个生成任务进行了评估。 PrefixTuning可以理解是CTRL模型的连续化升级版，为了生成不同领域和话题的文本，CTRL是在预训练阶段在输入文本前加入了control code，例如好评...

#Fine-tuning #LLM

READ

LLM Finetuning— Adapter Tuning

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 Adapter tuning Adapter ...

#LLM #Fine-tuning

READ

UI-TARS

Large Model

2026-01-11

UITARS 简介 UITARS（User Interface Task Automation and Reasoning System）是由字节跳动（ByteDance）研发的原生 GUI 智能体模型：输入方式：仅使用屏幕截图作为视觉输入交互方式：执行类人操作（键盘输入、鼠标点击、拖拽等）模型特性：端到端的原生智能体模型，无需复杂的中间件或框架传统 GUI 智能体的开发往往依赖于文本信息，例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展，但它们也存在一些局限性：平台不一致性：不同平台的 GUI 结构差异很大，导致智能体难以跨平台通用。信息冗余：文本信息往往过于冗长，增加了模型的处理负担。访问限制：获取系统底层的文本信息通常需要较高的权限，限制了应用的范围。模块化...

#Agent #VLM

READ

LLM Finetuning— Lora

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 LoRA LoRA（LowRank Adapt...

#Fine-tuning #LLM

READ

#

!

INCOMING TRANSMISSION

TSM (Temporal Shift Module)

TEA (Temporal Excitation and Aggregation)

TDN (Temporal Difference Networks)

video model 概述

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

LLM Finetuning— Adapter Tuning

UI-TARS

LLM Finetuning— Lora