1.逻辑回归:
逻辑回归本质:假设数据服从某个分布,用极大似然估计做参数的估计。
LR其实是分类,以简单的二分类为例,假设训练样本:
$$ \left\{ {\left( {x_1^1,x_2^1} \right),{y^1}} \right\},\left\{ {\left( {x_1^2,x_2^2} \right),{y^2}} \right\},...,\left\{ {\left( {x_1^m,x_2^m} \right),{y^m}} \right\} $$
其中,y只能取值0和1。我们要找一个超平面使得最大程度准确分类新样本$$\{ ({{\rm X}_1},{{\rm X}_2}),Y\} $$,超平面定义:
$$ {w^T}x + b = 0 $$
即求$$ \left( {{w_1},{w_2},b} \right) $$,
而考虑到$$ {w^T}x + b $$
是连续的,而y只有0和1值。因此包装一层sigmod函数(可导),将$${w^T}x + b$$ 压缩到0~1之间的概率取值,有:
$$ \begin{array}{l} P(y = 1|w,b,x) = \sigma ({w^T} + b) = \frac{1}{{1 + {e^{ - ({w^T}x + b)}}}},\\ P(y = 0|w,b,x) = 1 - \sigma ({w^T} + b) = \frac{{{e^{ - ({w^T}x + b)}}}}{{1 + {e^{ - ({w^T}x + b)}}}} \end{array} $$
如何去求$$\left( {{w_1},{w_2},b} \right)$$,用到似然函数(所有判断对的概率相乘):
$$ L(w,b) = \prod\limits_{i = 1}^m {{{[p({x_i})]}^{{y_i}}}{{[1 - p({x_i})]}^{1 - {y_i}}}} $$
两边各取对数似然函数:
$$ \begin{array}{l} L(w,b) = \sum\limits_{i = 1}^m {{y_i}\ln p({x_i}) + (1 - {y_i})(1 - p({x_i}))} ,\\ p({x_i}) = \frac{1}{{1 + {e^{ - ({w^T}x + b)}}}} \end{array} $$
损失函数是对数似然函数取负数,损失函数为:
$$ L(w,b) = - \sum\limits_{i = 1}^m {{y_i}\ln p({x_i}) + (1 - {y_i})(1 - p({x_i}))} $$
采用随机梯度下降法进行求解(随机一个样本):
$$ \nabla F(w) = \sum\limits_{i = 1}^m {({y_i} - \frac{1}{{1 + {e^{ - ({w^T}x + b)}}}}){x_i}} $$
更新参数
$$\left( {{w},b} \right)$$
$$ {w_{t + 1}} = {w_t} + \eta ({y_i} - \frac{1}{{1 + {e^{ - ({w^T}x + b)}}}}){x_i} $$
- LR和线性回归,前者是分类,相较于后者讨论一层sigmod函数
- LR和SVM,LR用的是交叉熵,SVM用的是HingeLoss;LR是参数模型,参数模型的前提是假设数据服从某一分布,SVM是非参数模型,非参数模型分布存在但不知道分布形式;SVM依赖于距离
- 一般不会直接把原始数据丢给LR,而是对特征进行离散化处理,这样做的好处是泛化能力大,加速计算
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。