知识库 - Orange

KDTree

2026-01-11

kd树（kdimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。应用背景 SIFT算法中做特征点匹配的时候就会利用到kd树。而特征点匹配实际上就是一个通过距离函数在高维矢量之间进行相似性检索的问题。针对如何快速而准确地找到查询点的近邻，现在提出了很多高维空间索引结构和近似查询的算法，kd树就是其中一种。索引结构中相似性查询有两种基本的方式：一种是范围查询（range searches），另一种是K近邻查询（Kneighbor searches）。范围查询就是给定查询点和查询距离的阈值，从数据集中找出所有与查询点距离小于阈值的数据；K近邻查询是给定查询点及正整数K，从数据集中找到距离查询点最近的K个数据，当K=1时...

#Machine Learning

READ

极大似然估计与贝叶斯估计

Machine Learning

2026-01-11

序言极大似然估计与贝叶斯估计是统计中两种对模型的参数确定的方法，两种参数估计方法使用不同的思想。前者来自于频率派，认为参数是固定的，我们要做的事情就是根据已经掌握的数据来估计这个参数；而后者属于贝叶斯派，认为参数也是服从某种概率分布的，已有的数据只是在这种参数的分布下产生的。所以，直观理解上，极大似然估计就是假设一个参数 θ ，然后根据数据来求出这个 θ . 而贝叶斯估计的难点在于 p(θ) 需要人为设定，之后再考虑结合MAP（maximum a posterior）方法来求一个具体的 θ . 所以极大似然估计与贝叶斯估计最大的不同就在于是否考虑了先验，而两者适用范围也变成了：极大似然估计适用于数据大量，估计的参数能够较好的反映实际情况；而贝叶斯估计则在数据量较少或者比较稀疏的情况下，考虑...

#Machine Learning

READ

Ensemble Learning概述

Machine Learning

2026-01-11

这篇博客介绍一下集成学习的几类：Bagging，Boosting以及Stacking。传统机器学习算法 (例如：决策树，人工神经网络，支持向量机，朴素贝叶斯等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话：三个臭皮匠，赛过诸葛亮。 Thomas G. Dietterich 指出了集成算法在统计，计算和表示上的有效原因：统计上的原因一个学习算法可以理解为在一个假设空间 H 中选找到一个最好的假设。但是，当训练样本的数据量小到不够用来精确的学习到目标假设时，学习算法可以找到很多满足训练样本的分类器。所以，学习算法选择...

#Machine Learning #Ensemble Learning

READ

人脸识别概述

Computer Vision

2026-01-11

简介一个完整的人脸识别系统包含以下几个模块 Face Detection: 人脸检测 Face Alignment：基于人脸关键点坐标对齐到正则坐标系下坐标 Face Recognition：基于对齐人脸进行识别人脸识别的算法流程人脸的识别流程：面部姿态处理(处理姿态，亮度，表情，遮挡)，特征提取，人脸比对。面部处理 face processing 这部分主要对姿态（主要）、亮度、表情、遮挡进行处理，可提升FR模型性能主要包含两种处理方式： 1. "Onetomany Augmentation": 从单个图像生成不同姿态的图像，使模型学习到姿态不变性的表示 1. "Manytoone Normalization": 从多个不同姿态的图像中恢复人脸图像的标准视图特征提取 Backb...

#人脸识别 #CV

READ

Softmax-based Loss的演化史

Computer Vision

2026-01-11

近期，人脸识别研究领域的主要进展之一集中在了 Softmax Loss 的改进之上；本文从两种主要的改进方式——做归一化以及增加类间 margin——展开梳理，介绍了近年来基于 Softmax 的 Loss 的研究进展。 Softmax简介 Softmax Loss 因为其易于优化，收敛快等特性被广泛应用于图像分类领域。然而，直接使用 softmax loss 训练得到的 feature 拿到 retrieval，verification 等“需要设阈值”的任务时，往往并不够好。这其中的原因还得从 Softmax 的本身的定义说起，Softmax loss 在形式上是 softmax 函数加上交叉熵损失，它的目的是让所有的类别在概率空间具有最大的对数似然，也就是保证所有的类别都能分类正确，...

#人脸识别 #CV

READ

LTR方法小结

Search&Rec

2026-01-11

Learning to rank 排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法，这里首先推荐一本微软亚洲研究院刘铁岩老师关于LTR的著作，Learning to Rank for Information Retrieval，书中对排序学习的各种方法做了很好的阐述和总结。我这里是一个超级精简版。排序学习是一个有监督的机器学习过程，对每一个给定的查询－文档对，抽取特征，通过日志挖掘或者人工标注的方法获得真实数据标注。然后通过排序模型，使得输入能够和实际的数据相似。常用的排序学习分为三种类型：PointWise，PairWise和ListWise。 PointWise 单文档方法的处理对象是单独的一篇文档，将文档...

#搜索推荐

READ

#

!

INCOMING TRANSMISSION

KDTree

极大似然估计与贝叶斯估计

Ensemble Learning概述

人脸识别概述

Softmax-based Loss的演化史

LTR方法小结