知识库 - Orange

Kernel Logistic Regression

2026-03-18

介绍如何将Kernel Trick引入到Logistic Regression，以及LR与SVM的结合 SVM与正则化首先回顾Soft-Margin SVM的原始问题: \[\begin{aligned}\min\limits_{b,\mathbf{w}, \xi} \quad &\frac{1}{2} \mathbf{w}^T\mathbf{w} + C \cdot \sum\limits_{n=1}^{N}\xi_n \\ s.t. \quad & y_n(\mathbf{w}^T\mathbf{z}^n+b) \geq 1-\xi_n, for \ all\ n \end{aligned}\] 其中 \(ξ_n\) 是训练数据违反边界的多少，没有违反的话， \(ξ_n=0\) ，反之 \(ξ_n>0\) ，换句话说，目标函数的第二项就可以表示模型的损失。现在换一种方式来写，将二者结合起来: \(ξ_n=max(1−y_n(w^Tz^n+b),0)\) ，这一个等式就代表了上面的约束条件，这样上述问题，就与下面的无约束问题等价 \[\begin{aligned} &...

#Machine Learning

READ

L1正则化与L2正则化

Machine Learning

2026-03-18

正则化正则化是一个通用的算法和思想，所有会产生过拟合现象的算法都可以使用正则化来避免过拟合。在经验风险最小化的基础上（也就是训练误差最小化），尽可能采用简单的模型，可以有效提高泛化预测精度。如果模型过于复杂，变量值稍微有点变动，就会引起预测精度问题。正则化之所以有效，就是因为其降低了特征的权重，使得模型更为简单。正则化一般会采用 L1 范式或者 L2 范式，其形式分别为 \(\Phi(w)=||x||_1\) 和 \(\Phi(w)=||x||_2\) 。 L1正则化 LASSO 回归，相当于为模型添加了这样一个先验知识： \(w\) 服从零均值拉普拉斯分布。首先看看拉普拉斯分布长什么样子： \[f(w|\mu,b)=\frac{1}{2b}exp(-\frac{|w-\mu|}{b})\] 由于引入了先验知识，所以似然函数这样写：...

#Machine Learning

READ

常用损失函数

Deep Learning

2026-02-27

机器学习 Hinge Loss Hinge 的叫法来源于其损失函数的图形，为一个折线，通用函数方式为: \[L(m_i) = max(0,1-m_i(w))\] Hinge可以解间距最大化问题，带有代表性的就是svm,最初的svm优化函数如下: \[\underset{w,\zeta}{argmin} \frac{1}{2}||w||^2+ C\sum_i \zeta_i \\ st.\quad \forall y_iw^Tx_i \geq 1- \zeta_i \\ \zeta_i \geq 0\] 将约束项进行变形则为: \[\zeta_i \geq 1-y_iw^Tx_i\] 则可以将损失函数进一步写为: \[\begin{aligned}J(w)&=\frac{1}{2}||w||^2 + C\sum_i max(0,1-y_iw^Tx_i) \\ &= \frac{1}{2}||w||^2 + C\sum_i max(0,1-m_i(w)) \\ &= \frac{1}{2}||w||^2 + C\sum_i L_{Linge}(m_i) \end{aligned}\]...

#DL基础 #Machine Learning

READ

DINO系列

Self-Supervised

2026-01-23

DINO Emerging Properties in Self-Supervised Vision Transformers 论文地址： arxiv.org/pdf/2104.14294 DINO摇摆到了动量式更新，果然【加动量】还是比【只用梯度停止】香。DINO的名字来自于Self- di stillation with no labels中的蒸馏和No标签。 DINO的训练步骤其实以前的对比学习方案也可以理解为知识蒸馏，DINO里更具体得描述了知识蒸馏的含义。下图展示了一个样本通过数据增强得到一对views \((x_1,x_2)\) 。注意DINO后面还会使用更复杂的裁剪和对比方案，但这里简单起见先不考虑那些。模型将输入图像的两种不同的随机变换 \(x_1\) 和 \(x_2\) 分别传递给学生和教师网络。这两个网络具有相同的架构，但参数不同。教师网络的输出以batch内计算的平均值，进行中心化（减去均值）。每个网络输出一个 \(K\)...

#Self-Supervised #对比学习

READ

SimCLR系列

Self-Supervised

2026-01-23

Self-Supervised Learning ，又称为自监督学习，我们知道一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks) 。其主要的方式就是通过自己监督自己。作为代表作的 kaiming 的 MoCo 引发一波热议， Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。所以在这个系列中，我会系统地解读 Self-Supervised Learning 的经典工作。总结下 Self-Supervised Learning 的方法，用 4 个英文单词概括一下就是： Unsupervised Pre-train, Supervised Fine-tune. 这段话先放在这里，可能你现在还不一定完全理解，后面还会再次提到它。在预训练阶段我们使用无标签的数据集 (unlabeled data) ，因为有标签的数据集很贵...

#Self-Supervised #对比学习

READ

MoCo系列

Self-Supervised

2026-01-23

总结下 Self-Supervised Learning 的方法，用 4 个英文单词概括一下就是： Unsupervised Pre-train, Supervised Fine-tune. 在预训练阶段我们使用无标签的数据集 (unlabeled data) ，因为有标签的数据集很贵，打标签得要多少人工劳力去标注，那成本是相当高的，所以这玩意太贵。相反，无标签的数据集网上随便到处爬，它便宜。在训练模型参数的时候，我们不追求把这个参数用带标签数据从初始化的一张白纸给一步训练到位，原因就是数据集太贵。于是 Self-Supervised Learning 就想先把参数从一张白纸训练到初步成型，再从初步成型训练到完全成型。注意这是2个阶段。这个训练到初步成型的东西，我们把它叫做 Visual Representation 。预训练模型的时候，就是模型参数从一张白纸到初步成型的这个过程，还是用无标签数据集。等我把模型参数训练个八九不离十，这时候再根据你下游任务 (Downstream Tasks) 的不同去用带标签的数据集把参数训练到完全成型...

#Self-Supervised #对比学习

READ

Contrastive Predictive Coding (CPC)

Self-Supervised

2026-01-23

补充知识表示学习（Representation Learning）：学习数据的表征，以便在构建分类器或其他预测器时更容易提取有用的信息，无监督学习也属于表示学习。互信息（Mutual Information）：表示两个变量 \(X\) 和 \(Y\) 之间的关系，定义为： \[I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\] 对比损失(contrastive loss) ：计算成对样本的匹配程度，主要用于降维中。计算公式为： \[L=\frac{1}{2N}\sum_{n-1}^N[yd^2+(1-y)max(margin-d, 0)^2]\] 其中, \(d=\sqrt{(a_n-b_n)^2}\) 为两个样本的欧式距离， \(y=\{0,1\}\) 代表两个样本的匹配程度， \(margin\) 代表设定的阈值。这种损失函数可以很好的表达成对样本的匹配程度，也能够很好用于训练提取特征的模型。当 \( y=1\) （即样本相似）时，损失函数只剩下 \(∑d^2\)...

#Self-Supervised #对比学习

READ

从NCE到InfoNCE

Self-Supervised

2026-01-23

从 NLP 入手 n-gram 语言模型（language model）就是假设一门语言所有可能的句子服从一个概率分布，每个句子出现的概率加起来是1，那么语言模型的任务就是预测每个句子在语言中出现的概率。如果把句子 \(s\) 看成单词 \(w\) 的序列 \(s=\{w_1,w_2,...,w_m\}\) ，那么语言模型就是建模一个 \(p(w_1,w_2,...,w_m)\) 来计算这个句子 \(s\) 出现的概率，直观上我们要得到这个语言模型，基于链式法则可以表示为每个单词出现的条件概率的乘积，我们将条件概率的条件 \((w_1,w_2,...,w_{i-1})\) 称为单词 \(w_i\) 的上下文，用 \(c_i\) 表示。 \[\begin{aligned} p\left(w_{1}, w_{2}, \ldots, w_{m}\right)&=p\left(w_{1}\right) * p\left(w_{2} \mid w_{1}\right) * p\left(w_{3} \mid w_{1}, w_{2}\right) \ldots p\left(w_{m}...

#Self-Supervised #对比学习

READ

#

!

INCOMING TRANSMISSION

Kernel Logistic Regression

L1正则化与L2正则化

常用损失函数

DINO系列

SimCLR系列

MoCo系列

Contrastive Predictive Coding (CPC)

从NCE到InfoNCE