知识库 - Orange

TSM (Temporal Shift Module)

3D Model

2026-01-11

Related Work: 大概过一下之前的几个重要工作（也是本文性能对比的主要几个stateoftheart）: 1. TSN：视频动作/行为识别的基本框架，将视频帧下采样（分成K个Segment，各取一帧）后接2D CNN对各帧进行处理+fusion 1. TRN：对视频下采样出来的 frames 的deep feature，使用 MLP 来融合，建立帧间temporal context 联系。最后将多级（不同采样率）出来的结果进行再一步融合，更好表征shortterm 和 longterm 关系。 1. ECO系列： 1. NL I3D+GCN：使用 nonlocal I3D来捕获longrange时空特征，使用 spacetime region graphs 来获取物体区域间的关联及...

#video

READ

TEA (Temporal Excitation and Aggregation)

3D Model

2026-01-11

TEA (Temporal Excitation and Aggregation)

Motivation Motion feature 学习过程中存在的问题：利用 optical flow 存储和计算的开销太大现阶段的网络设计，spatiotemporal 建模和Motion feature 建模分离比如STM 直接 Add spatio temporal feature 和 motion encoding feature TEA 的 ME 则利用了 Motion feature 做 channeI attention 过去的建模都 focus 在 framelevel motion，更好的建模方式 featurelevel motion 长时建模存在的问题：单帧过backbone，最后的feature 进行 temporal max/average poolin...

#video

READ

TDN (Temporal Difference Networks)

3D Model

2026-01-11

研究动机目前 3Dbased 的方法在大规模的 scenebased 的数据集(如kinetics)上相对于2D的方法取得了更好的效果，但是3Dbased也存在一些明显的问题： 3Dbased 的网络参数量大，计算开销大，训练的 scheduler 更长，inference latency 明显慢于 2Dbased 的方法。 3D卷积其实并不能很好得学到时序上信息的变化，而且3D卷积学出来的时序Kernel的weight的分布基本一致，更多的还是对时序上的信息做一种 smooth aggregation。这一点在之前的工作TANet 中有比较详细的讨论。也基于此，3Dbased 的网络在SomethingSomething这种对时序信息比较敏感的video数据集上并不能取得很好的效果( 得...

#video

READ

video model 概述

3D Model

2026-01-11

Classification，Detection Classification：给定预先裁剪好的视频片段，预测其所属的行为类别 Detection：视频是未经过裁剪的，需要先进行人的检测where和行为定位（分析行为的始末时间）when，再进行行为的分类what。通常所说的行为识别更偏向于对时域预先分割好的序列进行行为动作的分类，即 Trimmed Video Action Classification。 TwoStream Twostream convolutional networks 简介 TwoStream CNN网络顾名思义分为两个部分， 1. 空间流处理RGB图像，得到形状信息; 1. 时间流/光流处理光流图像，得到运动信息。两个流最后经过softmax后，做分类分数的融合，...

#video

READ

Gaze采集标定方案

3D Model

2026-01-11

整体流程： [代码] 0. 数据预处理这个步骤主要是crop四路数据，及生成后续步骤所需要的yaml文件。 1. 四路相机与双路相机标定内参标定 [代码] 这里主要的函数就是： pts = cv2.findChessboardCorners(img, (board_width, board_height))[1] cv2.cornerSubPix(gray, pts, (12, 12), (1, 1), (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_COUNT, 30, 0.1)) det, intr, dist, _, _ = cv2.calibrateCamera(obj_pts, img_pts, self.imgSize, None, No...

#3D

READ

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

Large Model

2026-01-11

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

PrefixTuning Paper: 2021.1 Optimizing Continuous Prompts for GenerationGithub：https://github.com/XiangLi1999/PrefixTuningPrompt: Continus Prefix PromptTask & Model：BART(Summarization), GPT2(Table2Text) 最早提出Prompt微调的论文之一，其实是可控文本生成领域的延伸，因此只针对摘要和Table2Text这两个生成任务进行了评估。 PrefixTuning可以理解是CTRL模型的连续化升级版，为了生成不同领域和话题的文本，CTRL是在预训练阶段在输入文本前加入了control code，例如好评...

#Fine-tuning #LLM

READ

LLM Finetuning— Adapter Tuning

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 Adapter tuning Adapter ...

#LLM #Fine-tuning

READ

Llama 3.1

Large Model

2026-01-11

🔖 https://ai.meta.com/research/publications/thellama3herdofmodels/ 简介本文归纳llm的训练分为两个主要阶段：预训练阶段 pretraining，模型通过使用简单的任务如预测下一个词或caption进行大规模训练后训练阶段 posttraining，模型经过调整以遵循指令、与人类偏好保持一致，并提高特定能力, 例如编码和推理。 Llama 3.1 发布，在 15.6T 多语言 tokens 上训练，支持多语言，编程，推理和工具使用。新模型支持 128K tokens 长度的上下文。最大的旗舰模型参数量为 405B，效果达到了闭源模型的 SOTA。模型结构 Llama 3.1 的模型和 Llama 3 是一样的，只是做了...

#LLM

READ

Llama系列

Large Model

2026-01-11

LLaMA 一直致力于LLM模型研究的国外TOP 3大厂除了OpenAI、Google，便是Meta(原来的Facebook) Meta曾第一个发布了基于LLM的聊天机器人——BlenderBot 3，但输出不够安全，很快下线；再后来，Meta发布一个专门为科学研究设计的模型Galactica，但用户期望过高，发布三天后又下线 23年2.24日，Meta通过论文《LLaMA: Open and Efficient Foundation Language Models》发布了自家的大型语言模型LLaMA，有多个参数规模的版本(7B 13B 33B 65B)，并于次月3.8日被迫开源 LLaMA只使用公开的数据(总计1.4T即1,400GB的token，其中CommonCrawl的数据占比67%...

#LLM

READ

LLM中的幻觉问题

Large Model

2026-01-11

概述在大型语言模型（LLM）中，幻觉（Hallucination）通常指模型生成不实、虚构、不一致或无意义的内容。本文将幻觉问题聚焦于模型输出未被上下文或世界知识所支撑的情况。幻觉的分类幻觉主要分为两类： 1. 内在幻觉（Incontext hallucination）：模型输出和上下文（prompt+input）不一致。 1. 外在幻觉（Extrinsic hallucination）：不符合事实知识。具体来说，模型输出应基于预训练数据集。由于预训练数据规模庞大，验证成本高昂，因此需要确保模型输出：后文重点关注外在幻觉问题。幻觉产生的原因预训练数据问题预训练数据量巨大，通常从公开互联网爬取，数据中存在过时、缺失或错误的信息，模型通过最大化对数似然进行记忆，可能错误地学习这些信...

#LLM

READ

从MHA、MQA、GQA到MLA

Large Model

2026-01-11

DeepSeekV2的发布引起了大家的热烈讨论。首先，最让人哗然的是1块钱100万token的价格，普遍比现有的各种竞品API便宜了两个数量级，以至于有人调侃“这个价格哪怕它输出乱码，我也会认为这个乱码是一种艺术”；其次，从模型的技术报告看，如此便宜的价格背后的关键技术之一是它新提出的MLA（Multihead Latent Attention），这是对GQA的改进，据说能比GQA更省更好，也引起了读者的广泛关注。接下来，本文将跟大家一起梳理一下从MHA、MQA、GQA到MLA的演变历程，并着重介绍一下MLA的设计思路。 MHA MHA（MultiHead Attention），也就是多头注意力，是开山之作《Attention is all you need》所提出的一种Attention...

#LLM

READ

DPO(Direct Preference Optimization)

Reinforcement Learning

2026-01-11

背景 RLHF 通常包括三个阶段：有监督微调（SFT）奖励建模阶段（Reward Model） RL微调阶段直接偏好优化（DPO）传统的RLHF方法分两步走： 1. 先训练一个奖励模型来判断哪个回答更好 1. 然后用强化学习让语言模型去最大化这个奖励这个过程很复杂，就像绕了一大圈：先学习"什么是好的"，再学习"如何做好"。 DPO发现了一个数学上的捷径： 1. 关键发现：对于任何奖励函数，都存在一个对应的最优策略（语言模型）；反过来说，任何语言模型也隐含着一个它认为最优的奖励函数 1. 直接优化：与其先训练奖励模型再训练语言模型，不如直接训练语言模型，让它自己内化"什么是好的" 1. 数学转换：DPO将"学习判断好坏"和"学习生成好内容"这两个任务合二为一，通过一个简单的数学变换...

#Reinforcement Learning #LLM

READ

#

!

INCOMING TRANSMISSION

TSM (Temporal Shift Module)

TEA (Temporal Excitation and Aggregation)

TDN (Temporal Difference Networks)

video model 概述

Gaze采集标定方案

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

LLM Finetuning— Adapter Tuning

Llama 3.1

Llama系列

LLM中的幻觉问题

从MHA、MQA、GQA到MLA

DPO(Direct Preference Optimization)