机器学习

Hinge Loss

Hinge的叫法来源于其损失函数的图形，为一个折线，通用函数方式为:

L (m_{i}) = ma x (0, 1 - m_{i} (w))

Hinge可以解间距最大化问题，带有代表性的就是svm,最初的svm优化函数如下:

w, ζ a r g min \frac{1}{2} ∣∣ w ∣ ∣^{2} + C i \sum ζ_{i} s t . \forall y_{i} w^{T} x_{i} \geq 1 - ζ_{i} ζ_{i} \geq 0

将约束项进行变形则为:

ζ_{i} \geq 1 - y_{i} w^{T} x_{i}

则可以将损失函数进一步写为:

J (w) = \frac{1}{2} ∣∣ w ∣ ∣^{2} + C i \sum ma x (0, 1 - y_{i} w^{T} x_{i}) = \frac{1}{2} ∣∣ w ∣ ∣^{2} + C i \sum ma x (0, 1 - m_{i} (w)) = \frac{1}{2} ∣∣ w ∣ ∣^{2} + C i \sum L_{L in g e} (m_{i})

因此svm的损失函数可以看成L2-Norm和Hinge损失误差之和.

交叉熵

从熵来看交叉熵损失

信息量

信息量来衡量一个事件的不确定性，一个事件发生的概率越大，不确定性越小，则其携带的信息量就越小。

设𝑋是一个离散型随机变量，其取值为集合 $X = x_{0}, x_{1}, \dots, x_{n}$ ，则其概率分布函数为 $p (x) = P r (X = x), x \in X$ ，则定义事件 $X = x_{0}$ 的信息量为

I (x_{0}) = - lo g (p (x_{0}))

当 $p (x_{0}) = 1$ 时，该事件必定发生，其信息量为0.

熵

熵用来衡量一个系统的混乱程度，代表系统中信息量的总和；熵值越大，表明这个系统的不确定性就越大。

信息量是衡量某个事件的不确定性，而熵是衡量一个系统（所有事件）的不确定性。

熵的计算公式

H (x) = - i = 1 \sum n p (x_{i}) lo g (p (x_{i}))

其中， $p (x_{i})$ 为事件 $X = x_{i}$ 的概率， $- l o g (p (x_{i}))$ 为事件 $X = x_{i}$ 的信息量。

可以看出，熵是信息量的期望值，是一个随机变量（一个系统，事件所有可能性）不确定性的度量。熵值越大，随机变量的取值就越难确定，系统也就越不稳定；熵值越小，随机变量的取值也就越容易确定，系统越稳定。

相对熵 Relative entropy

相对熵也称为KL散度(Kullback-Leibler divergence)，表示同一个随机变量的两个不同分布间的距离。

设 $p (x), q (x)$ 分别是离散随机变量𝑋的两个概率分布，则 $p$ 对 $q$ 的相对熵是：

D_{K L} (p ∥ q) = i \sum p (x_{i}) l o g (\frac{p ( x _{i} )}{q ( x _{i} )})

相对熵具有以下性质：

如果和的分布相同，则其相对熵等于0
$D_{K L} (p ∥ q) \neq = D_{K L} (q ∥ p)$ ，也就是相对熵不具有对称性。
$D_{K L} (p ∥ q) \geq 0$
总的来说，相对熵是用来衡量同一个随机变量的两个不同分布之间的距离。在实际应用中，假如 $p (x)$ 是目标真实的分布，而𝑞(𝑥)是预测得来的分布，为了让这两个分布尽可能的相同的，就需要最小化KL散度。

交叉熵 Cross Entropy

设 $p (x), q (x)$ 分别是离散随机变量𝑋的两个概率分布，其中 $p (x)$ 是目标分布， $p$ 和 $q$ 的交叉熵可以看做是，使用分布 $q (x)$ 表示目标分布 $p (x)$ 的困难程度：

H (p, q) = i \sum p (x_{i}) l o g \frac{1}{lo g q ( x _{i} )} = - i \sum p (x_{i}) lo g q (x_{i})

将熵、相对熵以及交叉熵的公式放到一起，

H (p) D_{K L} (p ∥ q) H (p, q) = - i \sum p (x_{i}) lo g p (x_{i}) = i \sum p (x_{i}) lo g \frac{p ( x _{i} )}{q ( x _{i} )} = i \sum (p (x_{i}) lo g p (x_{i}) - p (x_{i}) lo g q (x_{i})) = - i \sum p (x_{i}) lo g q (x_{i})

通过上面三个公式就可以得到

D_{K L} (p, q) = H (p, q) - H (p)

在机器学习中，目标的分布 $p (x)$ 通常是训练数据的分布是固定，即是 $H (p)$ 是一个常量。这样两个分布的交叉熵 $H (p, q)$ 也就等价于最小化这两个分布的相对熵 $D_{K L} (p ∥ q)$ 。

设 $p (x)$ 是目标分布（训练数据的分布），我们的目标的就让训练得到的分布 $q (x)$ 尽可能的接近 $p (x)$ ，这时候就可以最小化 $D_{K L} (p ∥ q)$ ，等价于最小化交叉熵 $H (p, q)$ 。

从最大似然看交叉熵

设有一组训练样本 $X = x_{1}, x_{2}, \dots, x_{m}$ ,该样本的分布为 $p (x)$ 。假设使用 $θ$ 参数化模型得到 $q (x; θ)$ ，现用这个模型来估计𝑋的概率分布，得到似然函数

L (θ) = q (X; θ) = i \prod m q (x_{i}; θ)

最大似然估计就是求得𝜃 使得𝐿(𝜃) 的值最大，也就是

θ_{M L} = a r g θ max i \prod m q (x_{i}; θ)

对上式的两边同时取log ，等价优化log 的最大似然估计即log-likelyhood ，最大对数似然估计

θ_{M L} = a r g θ max i \sum m lo g q (x_{i}; θ)

对上式的右边进行缩放并不会改变𝑎𝑟𝑔max 的解，上式的右边除以样本的个数𝑚

θ_{M L} = a r g θ max \frac{1}{m} i \sum m lo g q (x_{i}; θ)

和相对熵等价

上式的最大化 $θ_{M L}$ 是和没有训练样本没有关联的，就需要某种变换使其可以用训练的样本分布来表示，因为训练样本的分布可以看作是已知的，也是对最大化似然的一个约束条件。

注意上式的

\frac{1}{m} i \sum m lo g q (x_{i}; θ)

相当于求随机变量𝑋 的函数logq(𝑋;𝜃) 的均值，根据大数定理，随着样本容量的增加，样本的算术平均值将趋近于随机变量的期望。也就是说

\frac{1}{m} i \sum m lo g q (x_{i}; θ) \to E_{x \sim P} (lo g q (x; θ))

其中 $E_{X \sim P}$ 表示符合样本分布𝑃 的期望，这样就将最大似然估计使用真实样本的期望来表

θ_{M L} = a r g θ max E_{x \sim P} (lo g q (x; θ)) = a r g θ min E_{x \sim P} (- lo g q (x; θ))

对右边取负号，将最大化变成最小化运算。

D_{K L} (p ∥ q) = i \sum p (x_{i}) l o g (\frac{p ( x _{i} )}{q ( x _{i} )}) = E_{x \sim p} (lo g \frac{p ( x )}{q ( x )}) = E_{x \sim p} (lo g p (x) - lo g q (x)) = E_{x \sim p} (lo g p (x)) - E_{x \sim p} (lo g q (x))

由于 $E_{x \sim p} (l o g p (x))$ 是训练样本的期望，是个固定的常数，在求最小值时可以忽略，所以最小化 $D_{K L} (p ∥ q)$ 就变成了最小化 $- E_{x \sim p} (l o g q (x))$ ，这和最大似然估计是等价的。

和交叉熵等价

最大似然估计、相对熵、交叉熵的公式如下

θ_{M L} D_{K L} H (p, q) = - a r g θ min E_{x \sim p} lo g q (x; θ) = E_{x \sim p} lo g p (x) - E_{x \sim p} lo g q (x) = - i \sum m p (x_{i}) lo g q (x_{i}) = - E_{x \sim p} lo g q (x) θ_{M L} D_{K L} H (p, q) = a r g θ min E_{x \sim p} lo g q (x; θ) = E_{x \sim p} lo g p (x) - E_{x \sim p} lo g q (x) = - i \sum m p (x_{i}) lo g q (x_{i}) = - E_{x \sim p} lo g q (x)

从上面可以看出，最小化交叉熵，也就是最小化 $D_{K L}$ ，从而预测的分布𝑞(𝑥) 和训练样本的真实分布𝑝(𝑥) 最接近。而最小化 $D_{K L}$ 和最大似然估计是等价的。

交叉熵优点

假设有一个带可学习的权值w和偏置b的神经元，输入x，输出为z，即 $z = w x + b$ ，然后使用sigmoid函数激活，那么最终的输出如下，其中 $σ (z) = \frac{1}{1 + e ^{- z}}$ 为sigmoid函数， $a = σ (z)$

交叉熵代价函数的定义如下

C = - \frac{1}{n} x \sum [y ln a + (1 - y) ln (1 - a)]

利用链式法则进行求导分析

\frac{\partial C}{\partial w _{j}} = - \frac{1}{n} x \sum (\frac{y}{σ ( z )} - \frac{( 1 - y )}{1 - σ ( z )}) \frac{\partial σ}{\partial w _{j}} = - \frac{1}{n} x \sum (\frac{y}{σ ( z )} - \frac{( 1 - y )}{1 - σ ( z )}) σ ’ (z) x_{j} = \frac{1}{n} x \sum \frac{σ ’ ( z ) x _{j}}{σ ( z ) ( 1 - σ ( z ))} (σ (z) - y)

此外，还应注意到 $σ (z)$ 的导数化简后具有很简洁的形式

σ ’ (z) = (\frac{1}{1 + e ^{- z}}) ’ = \frac{e ^{- z}}{( 1 + e ^{- z} ) ^{2}} = (1 - \frac{1}{1 + e ^{- z}}) \frac{1}{1 + e ^{- z}} = (1 - σ (z)) σ (z)

最终可以得到非常简洁的化简结果

\frac{\partial C}{\partial w _{j}} = \frac{1}{n} x \sum x_{j} (σ (z) - y)

同理可得到对 $b_{j}$ 的偏导数

\frac{\partial C}{\partial b} = \frac{1}{n} x \sum (σ (z) - y)

当我们使用交叉熵作为代价函数时，由于 $σ (z)$ 导数的特殊形式，可以抵消交叉熵代价函数的导数中 $σ' (z)$ 这一项，从而避免了某些情况下 $σ (z)$ 进入饱和区而导致梯度消失的情况。此外，当误差较大时，也就是 $σ (z) - y$ 较大时，其梯度也较大，从而可以实现误差较大时网络的学习速率也较快，从而加速网络的收敛。

因此，在处理分类问题上，我们通常选择交叉熵作为网络的代价函数。

#

!

机器学习

Hinge Loss

交叉熵

从熵来看交叉熵损失

从最大似然看交叉熵

交叉熵优点