知识库 - Orange

Spherical Harmonic Lighting

3D Model

2026-01-30

本文主要介绍球谐（Spherical Harmonic，简称SH）函数在光照中的一些计算实现，其内容来自于GDC2003的演讲： Spherical Harmonic Lighting: The Gritty Details 学习总结球谐函数是一组正交基函数，两两相乘的积分结果是0，而自身相乘的积分结果为1，任意信号都可以通过与球谐函数相乘积分算出其在对应球谐函数上的系数，这个过程可以看成是信号在球谐函数上的投影，通过多个球谐函数按照对应系数累加可以得到原始信号的模拟，参与模拟的球谐函数阶数越高，模拟精度也就越高。球面坐标系（ \(\theta, \phi\) ）下面的球谐函数可以表示任意点到球心的距离，而这个距离也可以解读成强度，从而可以用于实现某点处各个方向上的输入光强。同时，每个点处的输入光强与输出光强的转换关系（BRDF之类）也可以使用球谐函数来表示，实际光照就是上述两个球谐函数相乘的积分输出，而在实际计算中，如果在离线的时候完成两个球谐函数的系数的求取，在运行时只需要一个系数向量点乘即可完成，大大简化了计算量，提升了计算速度。背景简介球谐光照（SH...

#3D

READ

PnP算法

3D Model

2026-01-29

简介 PnP(Perspective-n-Point)是求解3D到2D点对运动的方法，目的是求解相机坐标系相对世界坐标系的位姿。它描述了已知 \(n\) 个3D点的坐标(相对世界坐标系)以及这些点的像素坐标时，如何估计相机的位姿(即求解世界坐标系到相机坐标系的旋转矩阵 \(R\) 和平移向量 \(t\) )。用数学公式描述如下：基本公式： \[\omega \boldsymbol{p}=KP^C=K(R_{CW}\times P^W+t^C_{CW})\] 其中， \(\boldsymbol{p}\) 为点在像素坐标系下的坐标， \(P^C\) 为点在相机坐标系下的坐标， \(P^W\) 为点在世界坐标系下的坐标， \(\omega\) 为点的深度， \(K\) 为相机的内参矩阵， \(R_{CW}\) 和 \(t^C_{CW}\) 为从世界坐标系到相机坐标系的位姿转换。已知： \(n\) 个点在世界坐标系下的坐标 \(P_1^W,P_2^W,...,P_n^W\) ，这些点相应在像素坐标系下的坐标...

#3D

READ

罗德里格斯公式

3D Model

2026-01-29

对于向量的三维旋转问题，给定旋转轴和旋转角度，用罗德里格斯（Rodrigues）旋转公式可以得出旋转后的向量。另外，罗德里格斯旋转公式可以用旋转矩阵表示，即将三维旋转的轴-角（axis-angle）表示转变为旋转矩阵表示。向量投影（Vector projection）向量 \(a\) 在非零向量 \(b\) 上的向量投影指的是 \(a\) 在平行于向量 \(b\) 的直线上的正交投影。结果是一个平行于 \(b\) 的向量，定义为 \(\mathbf{a}_1=a_1\hat{\mathbf{b}}\) ，其中， \(\mathbf{a}_1\) 是一个标量，称为 \(a\) 在 \(b\) 上的标量投影， \(\hat{\mathbf{b}}\) 是与 \(b \) 同向的单位向量。 \(a_1=\left\Vert\mathbf{a}\right\Vert\cos\theta=\mathbf{a}\cdot \hat{\mathbf{b}}=\mathbf{a}\cdot\frac{\mathbf{b}}{\left\Vert\mathbf{b}\right\Vert}\)...

#3D

READ

相机标定

3D Model

2026-01-29

为什么要进行相机标定？先说结论：建立相机成像几何模型并矫正透镜畸变。建立相机成像几何模型：计算机视觉的首要任务就是要通过拍摄到的图像信息获取到物体在真实三维世界里相对应的信息，于是，建立物体从三维世界映射到相机成像平面这一过程中的几何模型就显得尤为重要，而这一过程最关键的部分就是要得到相机的内参和外参（后文有具体解释）。矫正透镜畸变：我们最开始接触到的成像方面的知识应该是有关小孔成像的，但是由于这种成像方式只有小孔部分能透过光线就会导致物体的成像亮度很低，于是聪明的人类发明了透镜。虽然亮度问题解决了，但是新的问题又来了：由于透镜的制造工艺，会使成像产生多种形式的畸变，于是为了去除畸变（使成像后的图像与真实世界的景象保持一致），人们计算并利用畸变系数来矫正这种像差。（虽然理论上可以设计出不产生畸变的透镜，但其制造工艺相对于球面透镜会复杂很多，so相对于复杂且高成本的制造工艺，人们更喜欢用脑子来解决……）相机标定的原理...

#3D

READ

齐次坐标

3D Model

2026-01-29

问题：两条平行线可以相交于一点在欧氏几何空间，同一平面的两条平行线不能相交，这是我们都熟悉的一种场景。然而，在透视空间里面，两条平行线可以相交，例如：火车轨道随着我们的视线越来越窄，最后两条平行线在无穷远处交于一点。欧氏空间（或者笛卡尔空间）描述2D/3D几何非常适合，但是这种方法却不适合处理透视空间的问题（实际上，欧氏几何是透视几何的一个子集合），2维笛卡尔坐标可以表示为 \((x,y)\) 。如果一个点在无穷远处，这个点的坐标将会 \((∞,∞)\) ，在欧氏空间，这变得没有意义。平行线在透视空间的无穷远处交于一点，但是在欧氏空间却不能，数学家发现了一种方式来解决这个问题。方法：齐次坐标简而言之，齐次坐标就是用 \(N+1\) 维来代表 \(N\) 维坐标我们可以在一个2D笛卡尔坐标末尾加上一个额外的变量 \(w\) 来形成2D齐次坐标，因此，一个点 \((X,Y)\) 在齐次坐标里面变成了 \((x,y,w)\) ，并且有 \[X = \frac{x}{w} \qquad Y = \frac{y}{w}\] 例如，笛卡尔坐标系下 \((1，2)\)...

#3D

READ

从DPG到DDPG

Reinforcement Learning

2026-01-11

引言 DDPG同样使用了ActorCritic的结构，Deterministic的确定性策略是和随机策略相对而言的，对于某一些动作集合来说，它可能是连续值，或者非常高维的离散值，这样动作的空间维度极大。如果我们使用随机策略，即像DQN一样研究它所有的可能动作的概率，并计算各个可能的动作的价值的话，那需要的样本量是非常大才可行的。于是有人就想出使用确定性策略来简化这个问题。作为随机策略，在相同的策略，在同一个状态 s 处，采用的动作 [Math] 是基于一个概率分布的，即是不确定的。而确定性策略则决定简单点，虽然在同一个状态处，采用的动作概率不同，但是最大概率只有一个，如果我们只取最大概率的动作，去掉这个概率分布，那么就简单多了。即作为确定性策略，相同的策略，在同一个状态处，动作是唯一确定的...

#Policy Gradient #Reinforcement Learning

READ

Actor-Critic Methods

Reinforcement Learning

2026-01-11

概述与理论背景 ActorCritic方法是强化学习中的一类重要算法，它巧妙地结合了基于策略(policybased)和基于价值(valuebased)的方法。在这种结构中，"Actor"指策略更新步骤，负责根据策略执行动作；而"Critic"指价值更新步骤，负责评估Actor的表现。从另一个角度看，ActorCritic方法本质上仍是策略梯度算法，可以通过扩展策略梯度算法获得。 ActorCritic方法在强化学习中的位置非常重要，它既保留了策略梯度方法直接优化策略的优势，又利用了值函数方法的效率。这种结合使得ActorCritic方法成为解决复杂强化学习问题的强大工具。最简单的ActorCritic算法(QAC) QAC算法通过扩展策略梯度方法得到。策略梯度方法的核心思想是通过最大化标...

#Reinforcement Learning #Policy Gradient

READ

Policy Gradient 优化：TRPO，PPO

Reinforcement Learning

2026-01-11

💡 引言 Trust Region Policy Optimization (TRPO) 是2015年的ICML会议上提出的一种强大的基于策略的强化学习算法。TRPO 解决了传统策略梯度方法中的一些关键问题，特别是训练不稳定和步长选择困难的问题。与传统策略梯度算法相比，TRPO 具有更高的稳健性和样本效率，能够在复杂环境中取得更好的性能。优化基础在深入了解 TRPO 之前，我们需要先简单回顾一些优化方法的基础知识。梯度上升法梯度上升法是一种迭代优化算法，用于寻找函数的局部最大值。目标：找到使目标函数 [Math] 最大化的参数 [Math] ： [公式] 梯度上升迭代过程： 1. 在当前参数 [Math] 处计算梯度： [Math] 1. 更新参数：梯度上升法的主要问题是学习率的...

#Policy Gradient #Reinforcement Learning

READ

策略梯度方法（Policy Gradient Methods）

Reinforcement Learning

2026-01-11

引言与背景策略梯度方法是强化学习中的一种重要方法，它标志着从基于价值的方法向基于策略的方法的重要转变。之前我们主要讨论了基于价值的方法（valuebased），而策略梯度方法则直接优化策略函数(policybased)，这是一个重要的进步。当策略用函数表示时，策略梯度方法的核心思想是通过优化某些标量指标来获得最优策略。与传统的表格表示策略不同，策略梯度方法使用参数化函数 [Math] 来表示策略，其中 [Math] 是参数向量。这种表示方法也可以写成其他形式，如 [Math] 、 [Math] 或 [Math] 。策略梯度方法具有多种优势：更高效地处理大型状态/动作空间具有更强的泛化能力样本使用效率更高策略表示：从表格到函数当策略的表示从表格转变为函数时，存在以下几个关键区别...

#Policy Gradient #Reinforcement Learning

READ

RLHF in LLM

Reinforcement Learning

2026-01-11

引言大语言模型（LLMs）在近年来取得了显著进展，展现出上下文学习、指令跟随和逐步推理等突出特性。然而，由于这些模型是在包含高质量和低质量数据的预训练语料库上训练的，它们可能会表现出编造事实、生成有偏见或有毒文本等意外行为。因此，将LLMs与人类价值观对齐变得至关重要，特别是在帮助性、诚实性和无害性（3H）方面。基于人类反馈的强化学习（RLHF）已被验证为有效的对齐方法，但训练过程复杂且不稳定。本文深入分析了RLHF框架，特别是PPO算法的内部工作原理，并提出了PPOmax算法，以提高策略模型训练的稳定性和效果。 RLHF的基本框架 RLHF训练过程包括三个主要阶段： 1. 监督微调（SFT）：模型通过模仿人类标注的对话示例来学习一般的人类对话方式，优化模型的指令跟随能力 1. 奖励模...

#Policy Gradient #LLM #Reinforcement Learning

READ

#

!

INCOMING TRANSMISSION

Spherical Harmonic Lighting

PnP算法

罗德里格斯公式

相机标定

齐次坐标

从DPG到DDPG

Actor-Critic Methods

Policy Gradient 优化：TRPO，PPO

策略梯度方法（Policy Gradient Methods）

RLHF in LLM