知识库 - Orange

Stable Diffusion 3

2026-01-11

🔖 https://stability.ai/news/stablediffusion3researchpaper 概述 SD3 模型与训练策略改进细节 SD3除了将去噪网络从 UNet 改成 DiT 外，SD3 还在模型结构与训练策略上做了很多小改进：改变训练时噪声采样方法将一维位置编码改成二维位置编码提升 VAE 隐空间通道数对注意力 QK 做归一化以确保高分辨率下训练稳定本文会简单介绍这些改进。论文阅读核心贡献介绍 Stable Diffusion 3 (SD3) 的文章标题为 Scaling Rectified Flow Transformers for HighResolution Image Synthesis。与其说它是一篇技术报告，更不如说它是一篇论文，因为它...

#flow #diffusion #Generating Model

READ

Ring All-reduce

杂七杂八

2026-01-11

分布式深度学习里的通信严重依赖于规则的集群通信，诸如 allreduce, reducescatter, allgather 等，因此，实现高度优化的集群通信，以及根据任务特点和通信拓扑选择合适的集群通信算法至关重要。本文以数据并行经常使用的 allreduce 为例来展示集群通信操作的数学性质。 Allreduce 在干什么？如图 1 所示，一共 4个设备，每个设备上有一个矩阵（为简单起见，我们特意让每一行就一个元素），allreduce 操作的目的是，让每个设备上的矩阵里的每一个位置的数值都是所有设备上对应位置的数值之和。如图 2 所示， allreduce 可以通过 reducescatter 和 allgather 这两个更基本的集群通信操作来实现。基于 ring 状通信可以高...

#计算机基础

READ

Gaze Estimation

3D Model

2026-01-11

概述问题定义广义的 Gaze Estimation 泛指与眼球、眼动、视线等相关的研究，因此有不少做 saliency 和 egocentric 的论文也以 gaze 为关键词。而本文介绍的 Gaze Estimation 主要以眼睛图像或人脸图像为处理对象，估算人的视线方向或注视点位置，如下图所示。 gaze角度的表示一般使用一个3d向量作为表示，也可以转换为pitch 和yaw角度，具体可参考 Model Gaze模型一般使用回归模型，所以这里基本只介绍一些在gaze model中使用的小技巧 Rle Loss 实际问题

#3D

READ

#

!

INCOMING TRANSMISSION

Stable Diffusion 3

Ring All-reduce

Gaze Estimation