了解机器学习,很多同学是从LR开始的,LR也不简单,回顾这块时我发现核心要理解
损失函数为啥是交叉熵,为啥用极大似然,然后指数问题对数化解决?
参考我之前的整理:机器学习中的数学2
进行计算可知,在有没有最优解要看是不是凸优化问题,如果使用欧氏距离作为损失函数,则不能保证为凸函数,但是如果用极大似然估计(也就是交叉熵,在伯努利分布下,极大似然估计与最小化交叉熵损失其实是同一回事)),在y=0和y=1时求Hessian 矩阵,发现是半正定的,所以他是凸函数。所以被用来作为损失函数。
概率和似然的定义,概率描述的是在一定条件下某个事件发生的可能性,概率越大说明这件事情越可能会发生;而似然描述的是结果已知的情况下,该事件在不同条件下发生的可能性,似然函数的值越大说明该事件在对应的条件下发生的可能性越大。
实际问题会涉及到多个独立事件,在似然函数的表达式中通常都会出现连乘:
为啥指数问题对数化解决呢?要求最优解得用梯度下降或者牛顿法,但是对多项乘积的求导往往非常复杂,而对于多项求和的求导却要简单的多,对数函数不改变原函数的单调性和极值位置,而且根据对数函数可以将乘积转换为加减式,这可以大大简化求导的过程,所以说将指数问题对数化是处理数学问题常见的方法
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。