【机器学习】2. Softmax分类器

Softmax classifier

在线性分类和SVM中已经介绍过了线性分类和Multiclass SVM的基本概念，这篇文章主要讨论Softmax分类器。

Softmax分类器是除了SVM以外，另一种常见的线性分类器，它是Logistic回归推广到多类分类的形式。

既然Softmax分类器是一种线性分类器，那么我们同样可以从这两个方面来研究它：score function和loss function。

score function

$$f(x_i; W) = W x_i$$
可以看出，它的score function与Multiclass SVM是相同的，毕竟它们都属于“线性分类器”，计算score的公式必定是这种线性的公式。

注意，这个score function形式是将b合并进W后的形式，具体见上一篇文章。

Softmax对score的解释：转化为概率分布

虽然SVM和Softmax分类器的score function相同，但是两者看待score的方式是完全不同的：

Multiclass SVM将score看作每类的“得分”，单单看得分的数值大小是没有意义的，得分只有在进行比较的时候才有意义。
Softmax classifier将score向量看作是一种未归一化的对数概率分布（unnormalized log probabilities）。经过适当的转化以后可以得到各个类的概率。

将unnormalized log probabilities转化为normalized probabilities

这个回答对unnormalized log probabilities做出了解释：
log probabilities的意思就是概率的对数（注意这里的概率不一定是归一化以后的，也就是说所有概率加起来可以不等于一），比如已知3个类的概率（未归一化）：$$[e^{-1}, e^{1}, e^{2}]$$，那么这3个概率对应的unnormalized log probabilities就是$$[-1, 1, 2]$$。

因此将unnormalized log probabilities转化回normalized probabilities的方式是：先将每个log probabilities以e为底数做幂运算，转化为普通概率，再把所有类的普通概率做归一化，让它们加起来等于1。比如，第j个类的normalized probability是：
$$p_j(z) = \frac{e^{z_j}}{\sum_k e^{z_k}}$$
其中$z$是各个类的unnormalized log probabilities组成的向量。$p_j(z)$就是第j个类的normalized probability。
函数$\sigma (\boldsymbol z)_j \equiv \frac{e^{\boldsymbol z_j}}{\sum_k e^{\boldsymbol z_k}}$又称为softmax function，它输入一组实数（也就是向量），然后输出其中一个实数的对应的概率（所有实数对应的概率加和为1）。

总结一下，Softmax分类器会对线性运算输出的score向量进行进一步转化：通过Softmax函数将【当前样本对于各个类的分数】转化为【当前样本属于各个类的概率分布】，后者才是模型的真正输出。这也是Softmax分类器名字的由来。

hypothesis 与 score function 的关系

由于线性运算的结果（score）往往不具备很好的可解释性，因此在输出之前“对score进行进一步转化”（比如将score转化为概率）是一种很常见的做法。
将输入映射为预测结果的函数，就是机器学习算法中的hypothesis（假设函数）。对于线性分类来说，假说函数包括了【通过线性运算计算score】+【将score转化为具有解释意义的预测结果】两个部分。

比如，softmax分类器的hypothesis是：

$$ \begin{align} h_\theta(x) = \begin{bmatrix} P(y = 1 | x; \theta) \\ P(y = 2 | x; \theta) \\ \vdots \\ P(y = K | x; \theta) \end{bmatrix} = \frac{1}{ \sum_{j=1}^{K}{\exp(\theta^{(j)\top} x) }} \begin{bmatrix} \exp(\theta^{(1)\top} x ) \\ \exp(\theta^{(2)\top} x ) \\ \vdots \\ \exp(\theta^{(K)\top} x ) \\ \end{bmatrix} \end{align} $$

参考资料：cs229-notes1, Softmax Regression

loss function

Softmax classifier通过以下公式来计算模型在样本$x_i$上的loss：
$$L_i = -\log\left(\frac{e^{f_{y_i}}}{ \sum_j e^{f_j} }\right) \hspace{0.5in} \text{or equivalently} \hspace{0.5in} L_i = -f_{y_i} + \log\sum_j e^{f_j}$$
这种计算loss的方式叫做交叉熵（cross-entropy loss），与Multiclass SVM的折叶损失（hinge loss）计算方式不一样，这是因为两者对score的解释不一样。前面已经说了Softmax分类器是如何将score向量转化为概率分布的，现在你应该可以理解，Softmax classifier loss实际是在希望正确类的概率$\frac{e^{f_{y_i}}}{ \sum_j e^{f_j} }$越大越好。

从信息论的角度来理解cross-entropy loss

除了从概率的角度来理解，还可以从信息论的角度来理解cross-entropy loss：Softmax函数与交叉熵。对交叉熵的解释。交叉熵解释2。对softmax的解释。softmax解释2。

简单来说，信息论中有这样一个公式$H(p,q) = H(p) + D_{KL}(p||q)$，其中：

p是实际分布，q是近似分布。p分布在分类问题中已经给出，即实际分类的概率分布。比如[0,0,1,0]表示样本实际是第3类。真实分布仅仅在真实类上概率为1，其他概率为0。
第一项就是p和q两个概率分布的交叉熵。在信息论中完整的交叉熵公式是：$H(p,q) = - \sum_x p(x) \log q(x)$。可以看出cross-entropy loss其实就是将p和q分布带入这个公式得到的。
第二项是p概率分布的熵。由于p分布是已知的，因此p分布的熵$H(p)$是定值（计算一个分布的熵的公式：$H(X) = \sum_{i} P(x_i)\log_b \frac{1}{P(x_i)} = -\sum_{i} P(x_i)\log_b P(x_i)$）。
第三项是pq分布之间的KL散度。表示两个分布之间的“距离”。

由于$H(p)$是定值，因此最小化交叉熵实际上就是最小化pq分布之间的KL散度，也就是最小化预测分布与实际分布之间的“距离”。

模型在整个数据集上的loss

模型在整个数据集的loss的计算公式与Multiclass SVM相同：
$$L = \underbrace{ \frac{1}{N} \sum_i L_i } + \underbrace{ \lambda R(W) } = -\frac{1}{N} \sum_i \log\left(\frac{e^{f_{y_i}}}{ \sum_j e^{f_j} }\right) + \lambda R(W)$$
将上面的$L_i$公式带入这个公式即可。这个公式左边的部分是data loss，右边的部分是regularization loss(正则化惩罚)：$R(W) = \sum_k\sum_l W_{k,l}^2$。

与 Logistic Regression 的关系

Sigmoid 和 Softmax 都用来对线性运算结果进行处理，将实数映射到(0, 1)区间，输出的数值具有更好的可解释性（可以看成概率）。
Sigmoid用于Logistic回归（二分类），它将单个实数映射到(0, 1)区间。这是Logistic回归的hypothesis：
$$\Pr(Y_i=0) = 1 - \Pr(Y_i=0) = \frac{e^{-\boldsymbol\beta \mathbf{X}_i}} {1 +e^{-\boldsymbol\beta \mathbf{X}_i}}$$
$$\Pr(Y_i=1) = S(\boldsymbol\beta \mathbf{X}_i) = \frac{1} {1 +e^{-\boldsymbol\beta \mathbf{X}_i}} $$

其中使用了Sigmoid函数：$$S(\boldsymbol x) \equiv \frac{e^\boldsymbol x}{e^\boldsymbol x + 1} \equiv \frac{1}{1 + e^{-x}}$$，$\boldsymbol\beta$是我们要训练的参数向量。

损失函数：
$$J(\theta) = - \sum_i \left(y^{(i)} \log( h_\theta(x^{(i)}) ) + (1 - y^{(i)}) \log( 1 - h_\theta(x^{(i)}) ) \right)$$

以下为Softmax分类的hypothesis：
$$\Pr(Y_i=j) = \frac{e^{\boldsymbol\beta_j \mathbf{X}_i}} {~\sum_k{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}}$$

其中使用了Softmax函数：$$\sigma (\boldsymbol z)_j \equiv \frac{e^{\boldsymbol z_j}}{\sum_k e^{\boldsymbol z_k}}$$，$\boldsymbol\beta_k \cdot \mathbf{X}_i$就是第k个分类器的输出，$\boldsymbol\beta_k$是$W$的第$k$行，$W$是我们要训练的参数矩阵。
特别地，如果将Softmax分类用于二分类问题（$k \in \lbrace 0, 1 \rbrace$）：
$$\Pr(Y_i=0) = \frac{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} = \frac{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i}}{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i} + e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} = \frac{e^{(\boldsymbol\beta_0 - \boldsymbol\beta_1) \cdot \mathbf{X}_i}}{e^{(\boldsymbol\beta_0 - \boldsymbol\beta_1) \cdot \mathbf{X}_i} + 1} = \frac{e^{-\boldsymbol\beta \cdot \mathbf{X}_i}} {1 +e^{-\boldsymbol\beta \cdot \mathbf{X}_i}}$$
$$\Pr(Y_i=1) = \frac{e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} = \frac{e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}}{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i} + e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} = \frac{1}{e^{(\boldsymbol\beta_0-\boldsymbol\beta_1) \cdot \mathbf{X}_i} + 1} = \frac{1} {1 +e^{-\boldsymbol\beta \cdot \mathbf{X}_i}}$$

因此，只要设$$\boldsymbol\beta = \boldsymbol\beta_1 - \boldsymbol\beta_0$$，就能把Softmax二分类写成Logistic回归。这就是为什么我们说Logistic回归是Softmax分类用于二分类问题的特例。
同理，Sigmoid函数只是Softmax函数的特例，你同样可以将两者写成相同的形式。
参考资料：Softmax vs Sigmoid

上面的式子还告诉我们，Softmax分类训练的参数是冗余的：Softmax二分类让我们训练出两个向量$\boldsymbol\beta_0$和$\boldsymbol\beta_1$，但是实际上只要$\boldsymbol\beta_0 - \boldsymbol\beta_0$相同，二分类的模型就是等价的。
Logistic回归就直截了当，不训练冗余的参数，直接训练$\boldsymbol\beta_0 - \boldsymbol\beta_0$向量。

损失函数的一致性：
无论是Softmax分类还是Logistic回归，损失函数是一致的。对单个样本$x_i$的loss的形式都是$$-\log(模型预测真实类概率)$$，都可以解释为期望“最大化正确类的概率”或者期望“最小化交叉熵”。

Multiclass SVM与Softmax的对比

loss function的差异

可以看出，两者的score function是相同的，通过score和ground truth label计算loss的方式是不同的。

Multiclass SVM只需要满足margin，Softmax永不满足

假设对某个样本输出的score为$$ [10, -2, 3]$$，真实类是第一个类，且$\Delta = 1$，那么SVM认为模型在这个样本上的loss为0，因为真实类的分数已经比其他所有类的分数都大1以上。也就是说，输出是$$[10, -2, 3]$$还是$$[1000, -2, 3]$$都无所谓，只要margin被满足，SVM loss都为0。在训练时遇到这种样本时不会去优化模型参数，因为loss已经为0。

但Softmax classifier的cross-entropy loss不同，真实类得到的分数相对其他类分数越高，cross-entropy loss越小，但是cross-entropy loss永远不可能为0。也就是说，Softmax永不满足，对于任何训练样本，它都会尝试去优化模型参数。

比如，一个车辆类型的SVM分类器，输入轿车图片和货车图片会产生相近的score（差值小于margin$\Delta = 1$），它就会学习轿车与货车之间的区别。如果输入一只青蛙的图片（青蛙的类别属于“其他”），“其他”类的分数已经比车辆类大1以上，那么模型不会学到什么新东西。也就是说，SVM只会从“有分类难度”（错误类的score接近正确类的score）的样本中学习。

但是如果是Softmax分类器，即使“其他”类的分数已经高于车辆类很多，Softmax分类器仍然会尝试增加这种差距。这种行为有时候是我们希望的，但有时候我们更希望分类器“专注于”学习轿车与货车之间的区别（有分类难度），对于杂七杂八的输入，只要保证分数之间的差距达到margin就行，不必为这种输入做优化。

欢迎提出建议或者指出错误！

参考资料

cs231n notes
ufldl tutorial
cs231n 翻译

【机器学习】2. Softmax分类器

Softmax classifier

score function

Softmax对score的解释：转化为概率分布

将unnormalized log probabilities转化为normalized probabilities

hypothesis 与 score function 的关系

loss function

从信息论的角度来理解cross-entropy loss

模型在整个数据集上的loss

与 Logistic Regression 的关系

Multiclass SVM与Softmax的对比

loss function的差异

Multiclass SVM只需要满足margin，Softmax永不满足

参考资料

csRyan

引用和评论

简单优雅的JavaScript代码片段（三）：合并请求，成批发出

人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）

人工智能与机器学习入门：决策树应用

人工智能与机器学习入门：使用Kaggle完成Titanic推断学习

科学计算编程涉及到的技术栈简介

DeepSeek行业应用实践报告100+份汇总解读|附PDF下载

中国新能源汽车：2024年总结与2025年趋势300+份报告汇总解读 | 附下载