逻辑回归
1. 动机与目的
在分类(classification)算法中,对于输入值x,输出值y只是一组有限的可能的值中的一个
比如,识别邮件诈骗,金融交易诈骗,肿瘤类别都运用到了分类算法,其结果值时no或者yes的一个,也被称为binary classification(二元分类算法),输出值也可以用fasle,ture或者逻辑 0,1代表
线性回归在分类训练集中的问题:
- 横轴为肿瘤大小,纵轴时可能输出的唯二的结果(yes(1) or no(0))
- 假设通过线性回归模型输出的y-hat<=0.5,则其分类为yes,y-hat>=0.5表示分类为no
- 现在给出一组数据,图中的⭕和❌分别表示良性和恶行肿瘤
- 通过这两组数据的拟合,得到了一条拟合线,f=wx+b
- 在纵轴是做一条水平线y=0.5,与f=wx+b相交,并在交点对应的横轴做一条垂线为决策边界(decision boundary)
- 则在垂线的左侧,所有的y都将为0,在其右侧所有的y都将为1
但是如果在图的右上侧添加一组数据,并做一条新的(图中为绿色)的拟合线,则决策边界发生了右移,但是我们不能因为决策边界的右移而改变分类的标准,此时回归算法就成了一个糟糕的算法
2. 逻辑回归
逻辑回归函数,输出值介于0,1之间,z的范围一般在-3到3之间,很容易从函数公式中得知,当z超过此范围在,则输出值无线接近1或者0
逻辑回归函数举例,以肿瘤分类预测为例,f的值=0.7代表预测其有70%的可能性为恶性肿瘤。
下图为简单的可视化逻辑回归预测模型,两组样本集之间的决策边界决定了预测的y值为0还是1
下图为复杂的可视化逻辑回归预测模型,有wb的取值以及f逻辑回归函数可知,决策边界是一个圆,x^2+y^2>=1时,预测值为1,反之预测值为0
3. 逻辑回归中的代价函数
图一
图二
图三
- 图一为损失函数(logistics loss function)中当y=1时的情况,在右侧坐标轴画出两种情况下的损失函数图像,将损失函数在f(逻辑回归)在(0,1)区间内的图像放大到左侧,当实际值y=1时,观察损失函数的第一个函数,f越接近1,则损失函数的值越接近0,loss->0,表明其损失越小
- 图二为损失函数(logistics loss function)中当y=0时的情况,同第一种情况,当实际值为1时,观察损失函数的第二个函数,f越接近1,表示预测的越不准确,其损失接近无穷大,反之当f越接近1,也就时越接近真是的y值时,损失函数的损失loss->0,表示预测的越准确,其损失越小
- 图三是单个训练样本的代价函数
简化逻辑回归损失函数
原函数为:
当y=1和y=0时,带入原函数得以化简称为类似于分段函数的形式
简化逻辑回归代价函数
2. 梯度下降
线性回归的梯度下降和逻辑回归的梯度下降
- 二者都具有类似的梯度下降(学习曲线)
- 利用矢量
特征缩放
2. 过拟合问题
- 图一是欠拟合(underfit)的例子,因为样本数据过少而做出的线性回归的模型,产生了比较高的偏差(high bias)
- 图二是恰到好处的例子(generalize),非常好的拟合了二次多项式的训练模型
- 图三是过拟合(overfit),将每个样本集都拟合到了一个四次多项式的训练模型上,但是过度拟合,导致样本集稍微出现变动,就会产生偏差,所取样本集不同,则拟合情况完全不同,产生的预测也会不同,这种情况也叫做high variance(高方差)
- 下图也是类似的三个例子
解决过拟合问题
- 通过获取更多的样本,但很多情况下并不适用
- 特征值选择(selected features),选择某些特征值进行拟合,但因此会导致丢失一些有用的信息
- 正则化(regularization),(reduce size of parameters) 缩小参量w,来尽可能的保留更多的属性值,是否正则化参量b影响不大
正则化
λ值的选择十分重要,过大则为了降低成本函数j的值,会使parameter w的选择上取非常小的值,则可能会产生欠拟合的情况,如下图:
λ的值选择过小,取0,则成本函数的正则式部分不发挥作用,会导致过拟合的情况,如下图:
用于线性回归的正则方法
用于逻辑回归的正则方法
.
.
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。