知识库 - Orange

Stacked Hourglass Networks

3D Model

2026-04-15

论文介绍了一种新的网络结构用于人体姿态检测，作者在论文中展现了不断重复bottom-up、top-down过程以及运用intermediate supervison（中间监督）对于网络性能的提升，下面来介绍Stacked Hourglass Networks. 简介理解人类的姿态对于一些高级的任务比如行为识别来说特别重要，而且也是一些人机交互任务的基础。作者提出了一种新的网络结构Stacked Hourglass Networks来对人体的姿态进行识别，这个网络结构能够捕获并整合图像所有尺度的信息。之所以称这种网络为Stacked Hourglass Networks，主要是它长得很像堆叠起来的沙漏，如下图所示：这种堆叠在一起的Hourglass模块结构是对称的，bottom-up过程将图片从高分辨率降到低分辨率，top-down过程将图片从低分辨率升到高分辨率，这种网络结构包含了许多pooling和upsampling的步骤，pooling可以将图片降到一个很低的分辨率，upsampling可以结合多个分辨率的特征。下面介绍具体的网络结构。 Hourglass Module...

#3D

READ

Rectified Flow

Generative Model

2026-04-15

1-Rectified Flow 可以认为是 flow matching的ot最优传输形式 Rectified Flow目的是将多对多无约束映射转变成一对一有约束映射。 ode会保证路径是“因果”的，也就是避免相交的情况 2-Rectified Flow或者叫Reflow 核心的实际上是加噪过程的样本交点数目降低，交点处模型无法精确学习向量场，交点数少了，模型在每个点预测都更准了，加噪过程是直线，所以能更少步数走到起点(但整体采样过程不是直线) 原本随机采样的DDPM模型中，也隐含了一个确定性的采样过程DDIM，它的连续极限也是一个ODE 。细想上述过程，可以发现不管是“DDPM→DDIM”还是“SDE→ODE”，都是从随机采样模型过渡到确定性模型，而如果我们一开始的目标就是ODE，那么该过程未免显得有点“迂回”了。在本文中，笔者尝试给出ODE扩散模型的直接推导，并揭示了它与雅可比行列式、热传导方程等内容的联系。 Rectified Flow 理论推导微分方程...

#diffusion #flow #Generating Model

READ

3D Model 概述

3D Model

2026-04-15

深度相机 “工欲善其事必先利其器‘’我们先从能够获取RGBD数据的相机开始谈起。首先我们来看一看其分类。根据其工作原理主要分为三类： 1.双目方案基于双目立体视觉的深度相机类似人类的双眼，和基于TOF、结构光原理的深度相机不同，它不对外主动投射光源，完全依靠拍摄的两张图片（彩色RGB或者灰度图）来计算深度，因此有时候也被称为被动双目深度相机。比较知名的产品有STEROLABS 推出的 ZED 2K Stereo Camera和Point Grey 公司推出的 BumbleBee。双目立体视觉是基于视差原理，由多幅图像获取物体三维几何信息的方法。在机器视觉系统中，双目视觉一般由双摄像机从不同角度同时获取周围景物的两幅数字图像，或有由单摄像机在不同时刻从不同角度获取周围景物的两幅数字图像，并基于视差原理即可恢复出物体三维几何信息，重建周围景物的三维形状与位置。双目视觉有的时候我们也会把它称为体视，是人类利用双眼获取环境三维信息的主要途径。从目前来看，随着机器视觉理论的发展，双目立体视觉在机器视觉研究中发回来看了越来越重要的作用为什么非得用双目相机才能得到深度？...

#Depth-Estimation #RGB-D #3D

READ

泊松分布和指数分布

Math

2026-04-15

泊松分布日常生活中，大量事件是有固定频率的。某医院平均每小时出生3个婴儿某公司平均每10分钟接到1个电话某超市平均每天销售4包xx牌奶粉某网站平均每分钟有2次访问它们的特点就是，我们可以预估这些事件的总数，但是没法知道具体的发生时间。已知平均每小时出生3个婴儿，请问下一个小时，会出生几个？有可能一下子出生6个，也有可能一个都不出生。这是我们没法知道的。泊松分布就是描述某段时间内，事件具体的发生概率。 \[P(N(t)=n)=\frac{(\lambda t)^n e^{-\lambda t}}{n!}\] 上面就是泊松分布的公式。等号的左边， \(P\) 表示概率， \(N\) 表示某种函数关系， \(t\) 表示时间， \(n\) 表示数量，1小时内出生3个婴儿的概率，就表示为 \(P(N(1) = 3)\) 。等号的右边，参数λ是单位时间（或单位面积）内随机事件的平均发生率。接下来两个小时，一个婴儿都不出生的概率是0.25%，基本不可能发生。 \[P(N(2) = 0) = \frac{(3 \times 2)^0 e^{-3 \times 2}}{0!}...

#math

READ

方向导数与梯度

Math

2026-04-15

基本概念方向导数：是一个数；反映的是 \(f(x,y)\) 在 \(P_0\) 点沿方向 \(v\) 的变化率。偏导数：是多个数（每元有一个）；是指多元函数沿坐标轴方向的方向导数，因此二元函数就有两个偏导数。偏导函数：是一个函数；是一个关于点的偏导数的函数。梯度：是一个向量；每个元素为函数对一元变量的偏导数；它既有大小（其大小为最大方向导数），也有方向。方向导数反映的是 \(f(x,y)\) 在 \(P_0\) 点沿方向 \(v\) 的变化率。例子如下：题目设二元函数 \( f(x, y) = x^2 + y^2\) ，分别计算此函数在点 \((1, 2)\) 沿方向 \(w=\{3, -4\}\) 与方向 \(u=\{1, 0\}\) 的方向导数。解：由于 \(w\) 不是单位向量，因此首先应对其进行单位化： \[v = w^0 = \frac{w}{|w|} = \left\{ \frac{3}{5}, -\frac{4}{5} \right\}\] 计算函数增量： \[\begin{aligned} \therefore f(x_0 + tv_1,...

#math

READ

python生成器和迭代器

杂七杂八

2026-04-15

生成器什么是生成器？通过列表生成式，我们可以直接创建一个列表，但是，受到内存限制，列表容量肯定是有限的，而且创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间，在Python中，这种一边循环一边计算的机制，称为生成器：generator 生成器是一个特殊的程序，可以被用作控制循环的迭代行为，python中生成器是迭代器的一种，使用 yield 返回值函数，每次调用 yield 会暂停，而可以使用 next() 函数和 send() 函数恢复生成器。生成器类似于返回值为数组的一个函数，这个函数可以接受参数，可以被调用，但是，不同于一般的函数会一次性返回包括了所有数值的数组，生成器一次只能产生一个值，这样消耗的内存数量将大大减小，而且允许调用函数可以很快的处理前几个返回值，因此生成器看起来像是一个函数，但是表现得却像是迭代器 python中的生成器...

#python

READ

Python的列表和元组

杂七杂八

2026-04-15

列表和元组总结列表和元组都是一个可以放置任意数据类型的有序集合，他们有以下共同点列表和元组中的元素可以任意，并且都可以嵌套。列表和元组都支持索引，且都支持负数索引，-1表示最后一个元素，-2表示倒数第二个元素列表和元组都支持切片操作都支持in关键词都可以使用 .index() 、 .count() 、 sorted() 和 enumerate() 等方法两者之间的相互转换，list()和tuple() 但是他们也是有区别列表是动态的，长度大小不固定，可以随意地增加、删减或者改变元素（mutable）元组是静态的，长度大小不固定，无法增删改，想要对已有的元组做任何“改变”，就只能开辟一块内存，创建新的元组列表和元组存储方式的差异由于列表是动态的；元组是静态的，不可变的。这样的差异，势必会影响两者存储方式。我们可以来看下面的例子： >>> l = [1, 2, 3] >>> l.__sizeof__() 64 >>> tup = (1, 2, 3) >>> tup.__sizeof__() 48...

#python

READ

Python的内存回收机制

杂七杂八

2026-04-15

概述 python采用的是引用计数机制为主，标记-清除和分代收集两种机制为辅的策略。引用计数 Python语言默认采用的垃圾收集机制是『引用计数法 Reference Counting 』，该算法最早George E. Collins在1960的时候首次提出，50年后的今天，该算法依然被很多编程语言使用。『引用计数法』的原理是：每个对象维护一个 ob_ref 字段，用来记录该对象当前被引用的次数，每当新的引用指向该对象时，它的引用计数 ob_ref 加 1 ，每当该对象的引用失效时计数 ob_ref 减 1 ，一旦对象的引用计数为 0 ，该对象立即被回收，对象占用的内存空间将被释放。它的缺点是需要额外的空间维护引用计数，这个问题是其次的，不过最主要的问题是它不能解决对象的“循环引用”，因此，也有很多语言比如Java并没有采用该算法做来垃圾的收集机制。引用计数案例 import sys class A(): def __init__(self): '''初始化对象''' print('object born id:%s'...

#python

READ

DDIM

Generative Model

2026-04-15

DDPM 有一个非常明显的问题：采样过程很慢。因为 DDPM 的反向过程利用了马尔可夫假设，所以每次都必须在相邻的时间步之间进行去噪，而不能跳过中间步骤。原始论文使用了 1000 个时间步，所以我们在采样时也需要循环 1000 次去噪过程，这个过程是非常慢的。为了加速 DDPM 的采样过程，DDIM 在不利用马尔可夫假设的情况下推导出了 diffusion 的反向过程，最终可以实现仅采样 20～100 步的情况下达到和 DDPM 采样 1000 步相近的生成效果，也就是提速 10～50 倍。这篇文章将对 DDIM 的理论进行讲解，并实现 DDIM 采样的代码。 DDPM 的反向过程首先我们回顾一下 DDPM 反向过程的推导，为了推导出 \(q(\mathbf{x}_{t-1}|\mathbf{x}_t)\) 这个条件概率分布，DDPM 利用贝叶斯公式将其变成了先验分布的组合，并且通过向条件中加入 \(\mathbf{x}_0 \) 将所有的分布转换为已知分布：...

#Generating Model #diffusion

READ

条件控制生成

Generative Model

2026-04-15

技术分析从方法上来看，条件控制生成的方式分两种：事后修改（Classifier-Guidance）和事前训练（Classifier-Free）。对于大多数人来说，一个SOTA级别的扩散模型训练成本太大了，而分类器（Classifier）的训练还能接受，所以就想着直接复用别人训练好的无条件扩散模型，用一个分类器来调整生成过程以实现控制生成，这就是事后修改的Classifier-Guidance方案；而对于“财大气粗”的Google、OpenAI等公司来说，它们不缺数据和算力，所以更倾向于往扩散模型的训练过程中就加入条件信号，达到更好的生成效果，这就是事前训练的Classifier-Free方案。 Classifier-Guidance方案最早出自《Diffusion Models Beat GANs on Image Synthesis》，最初就是用来实现按类生成的；后来《More Control for Free! Image Synthesis with Semantic Diffusion Guidance》...

#Generating Model #diffusion

READ

Gaze采集标定方案

3D Model

2026-04-15

整体流程 # 文件夹biaoding处理加crop以及生成.yml系列文件,保存在calib_params以及biaoding_pipeline文件夹中 0_test_calibprocess.sh # 内参标定,往往需要多天数据,且要保证标定板出现的多样性以及cover大部分区域 1_calib_intrics.sh # 外参标定,使用混合的内参对单天数据进行外参标定,最好loss在0.000x 1_calib_extrics.sh # 修改anchor.yaml相机信息进行15标定,loss 100以下,A88参考为50左右 2_test_merge.sh # 选择数据送标anchor,返回后, loss 0.00x, 不准基本就是anchor标错或者方向盘等位置发生运动 python tools/display_tags.py --anchor_path /mnt/.../anchor 3_test_anchors.sh # 检查anchor的3d位置是否正确 # 首先根据点位加入颜色 python 3_addcolor_anchor.py #...

#3D

READ

随机游走问题

Math

2026-04-15

问题表示有很多概率问题，尤其是独立重复实验问题，如果用生成函数的方法来做，会显得特别方便。本文要讲的“随机游走”问题便是其中一例，它又被形象地叫做“醉汉问题”，其本质上是一个二项分布，但是由于取了极限，出现了很多新的性质和应用。我们先考虑如下问题：考虑实数轴上的一个粒子，在 \(t=0\) 时刻它位于原点，每过一秒，它要不向前移动一格（ \(+1\) ），要不就向后移动一格（ \(-1\) ），问 \(n\) 秒后它所处位置的概率分布。不难发现，这个问题跟二项分布是雷同的。如果把这个粒子形象比喻成一个“喝醉酒的人”，那么上面的走法就类似于一个完全不省人事的醉汉走路问题了。（当然，醉汉是在三维空间走路的，这里简单起见，只描述了一维的。）这是一个独立重复实验，每秒的行走可用函数描述为 \(\frac{1}{2}(z+z^{-1})\) ，于是 \(n\) 秒后的运动分布情况可以用 \[\frac{1}{2^n}(z+z^{-1})^n\] 来描述， \(z^i(i=-n,-n+1,\dots,n-1,n)\) 的系数表示粒子位于 \(i\) 的概率。 💡...

#math

READ

#

!

INCOMING TRANSMISSION