知识库 - Orange

TEA (Temporal Excitation and Aggregation)

3D Model

2026-01-11

TEA (Temporal Excitation and Aggregation)

Motivation Motion feature 学习过程中存在的问题：利用 optical flow 存储和计算的开销太大现阶段的网络设计，spatiotemporal 建模和Motion feature 建模分离比如STM 直接 Add spatio temporal feature 和 motion encoding feature TEA 的 ME 则利用了 Motion feature 做 channeI attention 过去的建模都 focus 在 framelevel motion，更好的建模方式 featurelevel motion 长时建模存在的问题：单帧过backbone，最后的feature 进行 temporal max/average poolin...

#video

READ

TDN (Temporal Difference Networks)

3D Model

2026-01-11

研究动机目前 3Dbased 的方法在大规模的 scenebased 的数据集(如kinetics)上相对于2D的方法取得了更好的效果，但是3Dbased也存在一些明显的问题： 3Dbased 的网络参数量大，计算开销大，训练的 scheduler 更长，inference latency 明显慢于 2Dbased 的方法。 3D卷积其实并不能很好得学到时序上信息的变化，而且3D卷积学出来的时序Kernel的weight的分布基本一致，更多的还是对时序上的信息做一种 smooth aggregation。这一点在之前的工作TANet 中有比较详细的讨论。也基于此，3Dbased 的网络在SomethingSomething这种对时序信息比较敏感的video数据集上并不能取得很好的效果( 得...

#video

READ

video model 概述

3D Model

2026-01-11

Classification，Detection Classification：给定预先裁剪好的视频片段，预测其所属的行为类别 Detection：视频是未经过裁剪的，需要先进行人的检测where和行为定位（分析行为的始末时间）when，再进行行为的分类what。通常所说的行为识别更偏向于对时域预先分割好的序列进行行为动作的分类，即 Trimmed Video Action Classification。 TwoStream Twostream convolutional networks 简介 TwoStream CNN网络顾名思义分为两个部分， 1. 空间流处理RGB图像，得到形状信息; 1. 时间流/光流处理光流图像，得到运动信息。两个流最后经过softmax后，做分类分数的融合，...

#video

READ

Python列表和元组的性能以及存储方式等

Python

2026-01-11

1. 列表和元组总结列表和元组都是一个可以放置任意数据类型的有序集合，他们有以下共同点列表和元组中的元素可以任意，并且都可以嵌套。列表和元组都支持索引，且都支持负数索引，1表示最后一个元素，2表示倒数第二个元素列表和元组都支持切片操作都支持in关键词都可以使用.index()、.count()、sorted()和enumerate()等方法两者之间的相互转换，list()和tuple() 但是他们也是有区别列表是动态的，长度大小不固定，可以随意地增加、删减或者改变元素（mutable）元组是静态的，长度大小不固定，无法增删改，想要对已有的元组做任何“改变”，就只能开辟一块内存，创建新的元组 2. 列表和元组存储方式的差异由于列表是动态的；元组是静态的，不可变的。这样的差异...

#python

READ

python生成器和迭代器

Python

2026-01-11

生成器什么是生成器？通过列表生成式，我们可以直接创建一个列表，但是，受到内存限制，列表容量肯定是有限的，而且创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间，在Python中，这种一边循环一边计算的机制，称为生成器：generator 生成器是一个特殊的程序，可以被用作控制循环的迭代行为，python中生成器是迭代器的一种，使用yield返回值函数，每次调用yield会暂停，而可以使用next()函数和send()函数恢复生成器。生成器类似于返回值为数组的一...

#python

READ

python可变对象与不可变对象

Python

2026-01-11

概念可变对象与不可变对象的区别在于对象本身是否可变。 python内置的一些类型中可变对象：list dict set 不可变对象：tuple string int float bool 举一个例子 [代码] 上面例子很直观地展现了，可变对象是可以直接被改变的，而不可变对象则不可以地址问题下面我们来看一下可变对象的内存地址变化 [代码] 我们可以看到，可变对象变化后，地址是没有改变的如果两个变量同时指向一个地址 1.可变对象 [代码] 我们可以看到，改变a则b也跟着变，因为他们始终指向同一个地址 2.不可变对象 [代码] 我们可以看到，a改变后，它的地址也发生了变化，而b则维持原来的地址，原来地址中的内容也没有发生变化作为函数参数 1.可变对象 [代码] 我们可以看到，可变对象作...

#python

READ

Python的内存回收机制

Python

2026-01-11

概述 python采用的是引用计数机制为主，标记清除和分代收集两种机制为辅的策略。引用计数 Python语言默认采用的垃圾收集机制是『引用计数法 Reference Counting』，该算法最早George E. Collins在1960的时候首次提出，50年后的今天，该算法依然被很多编程语言使用。『引用计数法』的原理是：每个对象维护一个ob_ref字段，用来记录该对象当前被引用的次数，每当新的引用指向该对象时，它的引用计数ob_ref加1，每当该对象的引用失效时计数ob_ref减1，一旦对象的引用计数为0，该对象立即被回收，对象占用的内存空间将被释放。它的缺点是需要额外的空间维护引用计数，这个问题是其次的，不过最主要的问题是它不能解决对象的“循环引用”，因此，也有很多语言比如Jav...

#python

READ

PDB调试

Python

2026-01-11

Pycharm 的图形化界面虽然好用，但是在某些场景中，是无法使用的。而 Python 本身已经给我们提供了一个调试神器 pdb. 准备文件在调试之前先将这两个文件准备好（做为演示用），并放在同级目录中。 utils.py [代码] pdb_demo.py [代码] 进入调试模式主要有两种方法做为脚本调用，方法很简单，就像正常执行python脚本一样，只是多加了m pdb [代码] 使用这个方式进入调试模式，会在脚本的第一行开始单步调试。对于单文件的脚本并没有什么问题，如果是一个大型的项目，项目里有很多的文件，使用这种方式只能大大降低我们的效率。一般情况下，都会直接在你需要的地方打一个断点，那如何打呢？只需在你想要打断点的地方加上这两行。 [代码] 然后执行时，也不需要再指定m ...

#python

READ

python2和python3的继承方式的差异

Python

2026-01-11

通过继承创建的新类称为“子类”或“派生类”，被继承的类称为“基类”、“父类”或“超类”，继承的过程，就是从一般到特殊的过程。在某些 OOP 语言中，一个子类可以继承多个基类。但是一般情况下，一个子类只能有一个基类，要实现多重继承，可以通过多级继承来实现 python2中经典类和新式类的继承方式不同，经典类采用深度优先搜索的继承，新式类采用的是广度优先搜索的继承方式 python3中经典类和新式类的继承方式都采用的是都采用广度优先搜索的继承方式 [代码] [代码] 举个例子来说明：现有4个类，A,B,C,D类，D类继承于B类和C类，B类与C类继承于A类。class D(B,C) 实例化D类深度优先现在构造函数的继承情况为：若D类有构造函数，则重写所有父类的继承若D类没有构造函数，B类有...

#python

READ

大模型训练基础

Large Model

2026-01-11

梯度检查点（Gradient Checkpointing）大模型的参数量巨大，即使将batch_size设置为1并使用梯度累积的方式更新，也仍然会OOM。原因是通常在计算梯度时，我们需要将所有前向传播时的激活值保存下来，这消耗大量显存。还有另外一种延迟计算的思路，丢掉前向传播时的激活值，在计算梯度时需要哪部分的激活值就重新计算哪部分的激活值，这样做倒是解决了显存不足的问题，但加大了计算量同时也拖慢了训练。梯度检查点（Gradient Checkpointing）在上述两种方式之间取了一个平衡，这种方法采用了一种策略选择了计算图上的一部分激活值保存下来，其余部分丢弃，这样被丢弃的那一部分激活值需要在计算梯度时重新计算。下面这个动图展示了一种简单策略：前向传播过程中计算节点的激活值并保存...

#NLP #Large Model

READ

Packing & rmpad

Large Model

2026-01-11

简介基于lmmsengine中的训练时对数据packing操作以及use_rmpad消除了所有padding计算的逻辑 Packing 总体逻辑基于packing_length 将不同的数据填充到一个sequence中，具体来说在Datsset中，如下代码所示，将不同的数据append到buffer列表中 [代码] 在 Collator 组合成batch的形式传入到模型的输入，这里还是将数据padding [代码] rmpad 项目中，是以 monkey patch的形式（也就是打热补丁）替换rmpad操作的，如下代码所示，主要就是替换模型中的forward操作 [代码] Qwen3VLModel.forward 显式调用了 _unpad_input。它计算了非 padding 元...

#Large Model

READ

Python的参数传递机制

Python

2026-01-11

Python程序中存储的所有数据都是对象，每一个对象有一个身份，一个类型和一个值。看变量的实际作用，执行a = 8 这行代码时，就会创建一个值为8的int对象。变量名是对这个"一个值为8的int对象"的引用。（也可以简称a绑定到8这个对象） 1、可以通过id()来取得对象的身份这个内置函数，它的参数是a这个变量名，这个函数返回的值是这个变量a引用的那个"一个值为8的int对象"的内存地址。 [代码] 2、可以通过type()来取得a引用对象的数据类型 [代码] 3、对象的值当变量出现在表达式中，它会被它引用的对象的值替代。总结：类型是属于对象，而不是变量。变量只是对对象的一个引用。对象有可变对象和不可变对象之分。 Python函数传递参数到底是传值还是引用？传值、引用这个是c...

#python

READ

#

!

INCOMING TRANSMISSION

TEA (Temporal Excitation and Aggregation)

TDN (Temporal Difference Networks)

video model 概述

Python列表和元组的性能以及存储方式等

python生成器和迭代器

python可变对象与不可变对象

Python的内存回收机制

PDB调试

python2和python3的继承方式的差异

大模型训练基础

Packing & rmpad

Python的参数传递机制