知识库 - Orange

常用损失函数

Deep Learning

2026-02-27

机器学习 Hinge Loss Hinge 的叫法来源于其损失函数的图形，为一个折线，通用函数方式为: \[L(m_i) = max(0,1-m_i(w))\] Hinge可以解间距最大化问题，带有代表性的就是svm,最初的svm优化函数如下: \[\underset{w,\zeta}{argmin} \frac{1}{2}||w||^2+ C\sum_i \zeta_i \\ st.\quad \forall y_iw^Tx_i \geq 1- \zeta_i \\ \zeta_i \geq 0\] 将约束项进行变形则为: \[\zeta_i \geq 1-y_iw^Tx_i\] 则可以将损失函数进一步写为: \[\begin{aligned}J(w)&=\frac{1}{2}||w||^2 + C\sum_i max(0,1-y_iw^Tx_i) \\ &= \frac{1}{2}||w||^2 + C\sum_i max(0,1-m_i(w)) \\ &= \frac{1}{2}||w||^2 + C\sum_i L_{Linge}(m_i) \end{aligned}\]...

#Machine Learning #DL基础

READ

自回归生成模型（Autoregressive Models）

Generative Model

2026-01-18

研究对象与基本设定我们希望学习一个能够“生成数据”的概率模型。假设我们有一个数据集 \(D\) ，每个样本是 \(n\) 维二值向量： \(x \in \{0,1\}^n\) 我们的目标是用一个参数化分布 \(p_\theta(x)\) 去逼近真实数据分布 \(p_{\text{data}}(x)\) ，并最终能够：密度估计：给定 \(x\) 计算 \(p_\theta(x)\) 或 \(\log p_\theta(x)\) 采样生成：从 \(p_\theta(x)\) 采样得到新的 \(x\) 表示：链式法则与自回归分解链式法则分解联合分布任意联合分布都可用概率链式法则分解为条件概率的乘积： \[p(x) = \prod_{i=1}^{n} p(x_i \mid x_1, x_2, \dots, x_{i-1}) = \prod_{i=1}^{n} p(x_i \mid x_{<i})\] 其中： \(x_{<i} = [x_1, x_2, \dots, x_{i-1}]\) ，这意味着：只要我们能为每个维度 \(i\) 学好一个条件分布 \(p(x_i \mid...

#Generating Model #Autoregressive

READ

什么是Self-Supervised Learning？

Self-Supervised

2026-01-18

the machine predicts any parts of its input for any observed part 这是LeCun在AAAI 2020上对自监督学习的定义，再结合传统的自监督学习定义，可以总结如下两点特征：通过“半自动”过程从数据本身获取“标签”；从“其他部分”预测部分数据。个人理解，其实任意挖掘对象之间联系、探索不同对象共同本质的方法，都或多或少算是自监督学习的思想。自监督学习与无监督学习的区别主要在于，无监督学习专注于检测特定的数据模式，如聚类、社区发现或异常检测，而自监督学习的目标是恢复（recovering），仍处于监督学习的范式中。上图展示了三者之间的区别，自监督中的“related information” 可以来自其他模态、输入的其他部分以及输入的不同形式。 Self-Supervised...

#Autoregressive #Self-Supervised

READ

#

!

INCOMING TRANSMISSION

常用损失函数

自回归生成模型（Autoregressive Models）

什么是Self-Supervised Learning？