知识库 - Orange

Softmax-based Loss的演化史

Computer Vision

2026-01-11

近期，人脸识别研究领域的主要进展之一集中在了 Softmax Loss 的改进之上；本文从两种主要的改进方式——做归一化以及增加类间 margin——展开梳理，介绍了近年来基于 Softmax 的 Loss 的研究进展。 Softmax简介 Softmax Loss 因为其易于优化，收敛快等特性被广泛应用于图像分类领域。然而，直接使用 softmax loss 训练得到的 feature 拿到 retrieval，verification 等“需要设阈值”的任务时，往往并不够好。这其中的原因还得从 Softmax 的本身的定义说起，Softmax loss 在形式上是 softmax 函数加上交叉熵损失，它的目的是让所有的类别在概率空间具有最大的对数似然，也就是保证所有的类别都能分类正确，...

#人脸识别 #CV

READ

Reinforce Learning 概述

Reinforcement Learning

2026-01-11

强化学习基础改进算法 LLM中的RL

#Reinforcement Learning

READ

从GRPO到GSPO、DAPO

Reinforcement Learning

2026-01-11

回顾 PPO [公式] 其中 (q, a) 是数据集 [Math] 中采样的 questionanswer pair, [Math] 是重要性采样比的clip范围, [Math] 是时间步 t 的优势估计量. 给定 value function V 和 reward function R , [Math] 使用广义优势估计 (GAE) 来计算: [公式] 其中， [公式] GRPO 相比于 PPO, GRPO 去掉了value function 并以分组的方式估计优势。对于特定的问答对 (q, a), behavior policy [Math] 生成了一组 G 个 response \{o...

#Reinforcement Learning #Large Model

READ

LTR方法小结

Search&Rec

2026-01-11

Learning to rank 排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法，这里首先推荐一本微软亚洲研究院刘铁岩老师关于LTR的著作，Learning to Rank for Information Retrieval，书中对排序学习的各种方法做了很好的阐述和总结。我这里是一个超级精简版。排序学习是一个有监督的机器学习过程，对每一个给定的查询－文档对，抽取特征，通过日志挖掘或者人工标注的方法获得真实数据标注。然后通过排序模型，使得输入能够和实际的数据相似。常用的排序学习分为三种类型：PointWise，PairWise和ListWise。 PointWise 单文档方法的处理对象是单独的一篇文档，将文档...

#搜索推荐

READ

#

!

INCOMING TRANSMISSION

Softmax-based Loss的演化史

Reinforce Learning 概述

从GRPO到GSPO、DAPO

LTR方法小结