LR推导中的核心问题

了解机器学习，很多同学是从LR开始的，LR也不简单，回顾这块时我发现核心要理解
损失函数为啥是交叉熵，为啥用极大似然，然后指数问题对数化解决？

参考我之前的整理：机器学习中的数学2
进行计算可知，在有没有最优解要看是不是凸优化问题，如果使用欧氏距离作为损失函数，则不能保证为凸函数，但是如果用极大似然估计（也就是交叉熵,在伯努利分布下，极大似然估计与最小化交叉熵损失其实是同一回事）），在y=0和y=1时求Hessian 矩阵，发现是半正定的，所以他是凸函数。所以被用来作为损失函数。

概率和似然的定义，概率描述的是在一定条件下某个事件发生的可能性，概率越大说明这件事情越可能会发生；而似然描述的是结果已知的情况下，该事件在不同条件下发生的可能性，似然函数的值越大说明该事件在对应的条件下发生的可能性越大。
实际问题会涉及到多个独立事件，在似然函数的表达式中通常都会出现连乘：
图片描述

为啥指数问题对数化解决呢？要求最优解得用梯度下降或者牛顿法，但是对多项乘积的求导往往非常复杂，而对于多项求和的求导却要简单的多，对数函数不改变原函数的单调性和极值位置，而且根据对数函数可以将乘积转换为加减式，这可以大大简化求导的过程，所以说将指数问题对数化是处理数学问题常见的方法
图片描述

LR推导中的核心问题

HelloData

引用和评论

xgboost原理

一文掌握 MCP 上下文协议：从理论到实践

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略