机器学习（5）：吴恩达笔记

如果我们考虑将线性回归算法应用于逻辑回归中，即使用直线拟合数据。可以这样考虑，规定边界阈值为0.5，若直线的y值大于等于0.5，认为y=1；若直线的值小于0.5，认为y=0.

但是这样存在两个问题：
（1）在直线y=0.5的点左边，预测都是0；右侧预测都是1.这与实际可能不相符
（2）我们希望分类器的输出值在0~1之间，而这样输出值可能大于1或者为负值

QQ图片20200803153807.png

QQ图片20200803154421.png

如何理解回归模型：
QQ图片20200803155015.png

我们认为函数h输出的值，是给定新的样本y=1的概率。例如在肿瘤分类中，h函数为0.7，表示给定的新样本y=1（恶性肿瘤）的概率为0.7。即在给定新样本x和参数的条件下，y=1的概率

QQ图片20200803160722.png

下边我们先跳过拟合的过程，假设已经拟合好了，参数为【-3,1,1】，那么我们称剥离s形函数的直线函数为决策边界。决策边界由概率为0.5的一系列点组成，将整个平面分为两部分，一部分y=0概率大，另一部分y=1的概率大

QQ图片20200803161237.png

QQ图片20200803161621.png
QQ图片20200803161841.png

视频没有字幕...

（1）将邮件分为不同文件夹：工作、家人、兴趣、朋友
（2）天气：晴天、多云、雨、雪

假设我们训练集含有三个类别，我们可以用一对多思想将其化为三个二分类问题：

（1）将类别1作为正样本，类别2、3作为负样本，拟合出合适的h1函数分类器
（2）将类别2作为正样本，类别1、3作为负样本，拟合出合适的h2函数分类器
（3）将类别3作为正样本，类别1、2作为负样本，拟合出合适的h3函数分类器

拟合出三个分类器后，根据给出的新样本x的特征，带入三个函数计算y的概率，哪个y=1的概率最大，属于哪个类的概率就最大

由于参数0在正则化中一般不带有惩罚，所以我们把参数0和其余的参数分离开，把参数0写出来，其余的单独作为一部分。一般来讲，学习速率较小，参数较小，特征数量m较大，所以前边一项实际上乘了一个接近1但小于1（如0.999）的数，而后边实际上和没加正则化前一模一样。从这里也能看出正则化减小参数的趋势

在正规方程中，我们先建好设计矩阵X，每一行是一个数据的特征；然后创建好矩阵y，包含数据集的所有标签。在加入正则化的正则化项后，求关于每个参数的偏导数，令偏导数等于0得到下图

与没有正则化之前相比，多了一个参数乘一个矩阵。这个矩阵主对角线第一个元素为0，其余为1.值得注意的是，在正则化后，这种方法是费时费力的

正规方程的正则化虽然费时费力，但是也解决了正规方程的不可逆问题。在没有正则化时，若m数据数量小于特征数量n的话，XX’是不可逆的，但是正则化就没有这个问题，正则参数严格大于0，XX’加上正则化矩阵，就是可逆的了