机器学习（吴恩达）——小白笔记（6）:逻辑回归

逻辑回归

1. 动机与目的

在分类（classification）算法中，对于输入值x，输出值y只是一组有限的可能的值中的一个

比如，识别邮件诈骗，金融交易诈骗，肿瘤类别都运用到了分类算法，其结果值时no或者yes的一个，也被称为binary classification(二元分类算法），输出值也可以用fasle,ture或者逻辑 0，1代表

线性回归在分类训练集中的问题：

横轴为肿瘤大小，纵轴时可能输出的唯二的结果（yes(1) or no(0))
假设通过线性回归模型输出的y-hat<=0.5，则其分类为yes，y-hat>=0.5表示分类为no
现在给出一组数据，图中的⭕和❌分别表示良性和恶行肿瘤
通过这两组数据的拟合，得到了一条拟合线，f=wx+b
在纵轴是做一条水平线y=0.5,与f=wx+b相交，并在交点对应的横轴做一条垂线为决策边界（decision boundary)
则在垂线的左侧，所有的y都将为0，在其右侧所有的y都将为1
但是如果在图的右上侧添加一组数据，并做一条新的（图中为绿色)的拟合线，则决策边界发生了右移，但是我们不能因为决策边界的右移而改变分类的标准，此时回归算法就成了一个糟糕的算法
2. 逻辑回归

逻辑回归函数，输出值介于0，1之间，z的范围一般在-3到3之间，很容易从函数公式中得知，当z超过此范围在，则输出值无线接近1或者0

逻辑回归函数举例，以肿瘤分类预测为例，f的值=0.7代表预测其有70%的可能性为恶性肿瘤。

下图为简单的可视化逻辑回归预测模型，两组样本集之间的决策边界决定了预测的y值为0还是1

下图为复杂的可视化逻辑回归预测模型，有wb的取值以及f逻辑回归函数可知，决策边界是一个圆，x^2+y^2>=1时，预测值为1，反之预测值为0

3. 逻辑回归中的代价函数

图一

图二

图三

图一为损失函数（logistics loss function）中当y=1时的情况，在右侧坐标轴画出两种情况下的损失函数图像，将损失函数在f（逻辑回归）在（0，1）区间内的图像放大到左侧，当实际值y=1时，观察损失函数的第一个函数，f越接近1,则损失函数的值越接近0，loss->0，表明其损失越小
图二为损失函数（logistics loss function）中当y=0时的情况，同第一种情况，当实际值为1时，观察损失函数的第二个函数，f越接近1,表示预测的越不准确，其损失接近无穷大，反之当f越接近1，也就时越接近真是的y值时，损失函数的损失loss->0,表示预测的越准确，其损失越小
图三是单个训练样本的代价函数

简化逻辑回归损失函数

原函数为：
当y=1和y=0时，带入原函数得以化简称为类似于分段函数的形式
简化逻辑回归代价函数

2. 梯度下降

线性回归的梯度下降和逻辑回归的梯度下降

二者都具有类似的梯度下降（学习曲线）
利用矢量
特征缩放
2. 过拟合问题
图一是欠拟合（underfit)的例子，因为样本数据过少而做出的线性回归的模型，产生了比较高的偏差（high bias）
图二是恰到好处的例子（generalize），非常好的拟合了二次多项式的训练模型
图三是过拟合（overfit），将每个样本集都拟合到了一个四次多项式的训练模型上，但是过度拟合，导致样本集稍微出现变动，就会产生偏差，所取样本集不同，则拟合情况完全不同，产生的预测也会不同，这种情况也叫做high variance（高方差）
下图也是类似的三个例子

解决过拟合问题

通过获取更多的样本，但很多情况下并不适用
特征值选择（selected features），选择某些特征值进行拟合，但因此会导致丢失一些有用的信息
正则化（regularization），（reduce size of parameters）缩小参量w，来尽可能的保留更多的属性值，是否正则化参量b影响不大

正则化

λ值的选择十分重要，过大则为了降低成本函数j的值，会使parameter w的选择上取非常小的值，则可能会产生欠拟合的情况，如下图：

λ的值选择过小，取0，则成本函数的正则式部分不发挥作用，会导致过拟合的情况，如下图：