1.逻辑回归

1.逻辑回归：

逻辑回归本质：假设数据服从某个分布，用极大似然估计做参数的估计。

LR其实是分类，以简单的二分类为例，假设训练样本:

$$ \left\{ {\left( {x_1^1,x_2^1} \right),{y^1}} \right\},\left\{ {\left( {x_1^2,x_2^2} \right),{y^2}} \right\},...,\left\{ {\left( {x_1^m,x_2^m} \right),{y^m}} \right\} $$

其中，y只能取值0和1。我们要找一个超平面使得最大程度准确分类新样本$$\{ ({{\rm X}_1},{{\rm X}_2}),Y\} $$，超平面定义：

$$ {w^T}x + b = 0 $$

即求$$ \left( {{w_1},{w_2},b} \right) $$,
而考虑到$$ {w^T}x + b $$
是连续的，而y只有0和1值。因此包装一层sigmod函数（可导），将$${w^T}x + b$$ 压缩到0~1之间的概率取值，有：

$$ \begin{array}{l} P(y = 1|w,b,x) = \sigma ({w^T} + b) = \frac{1}{{1 + {e^{ - ({w^T}x + b)}}}},\\ P(y = 0|w,b,x) = 1 - \sigma ({w^T} + b) = \frac{{{e^{ - ({w^T}x + b)}}}}{{1 + {e^{ - ({w^T}x + b)}}}} \end{array} $$

如何去求$$\left( {{w_1},{w_2},b} \right)$$，用到似然函数（所有判断对的概率相乘）：

$$ L(w,b) = \prod\limits_{i = 1}^m {{{[p({x_i})]}^{{y_i}}}{{[1 - p({x_i})]}^{1 - {y_i}}}} $$

两边各取对数似然函数：

$$ \begin{array}{l} L(w,b) = \sum\limits_{i = 1}^m {{y_i}\ln p({x_i}) + (1 - {y_i})(1 - p({x_i}))} ,\\ p({x_i}) = \frac{1}{{1 + {e^{ - ({w^T}x + b)}}}} \end{array} $$

损失函数是对数似然函数取负数，损失函数为：

$$ L(w,b) = - \sum\limits_{i = 1}^m {{y_i}\ln p({x_i}) + (1 - {y_i})(1 - p({x_i}))} $$

采用随机梯度下降法进行求解（随机一个样本）：

$$ \nabla F(w) = \sum\limits_{i = 1}^m {({y_i} - \frac{1}{{1 + {e^{ - ({w^T}x + b)}}}}){x_i}} $$

更新参数
$$\left( {{w},b} \right)$$

$$ {w_{t + 1}} = {w_t} + \eta ({y_i} - \frac{1}{{1 + {e^{ - ({w^T}x + b)}}}}){x_i} $$

LR和线性回归，前者是分类，相较于后者讨论一层sigmod函数
LR和SVM，LR用的是交叉熵，SVM用的是HingeLoss；LR是参数模型，参数模型的前提是假设数据服从某一分布，SVM是非参数模型，非参数模型分布存在但不知道分布形式；SVM依赖于距离
一般不会直接把原始数据丢给LR，而是对特征进行离散化处理，这样做的好处是泛化能力大，加速计算

参考：https://zhuanlan.zhihu.com/p/...

1.逻辑回归

1.逻辑回归：

小蝌蚪

引用和评论

6.GBDT、随机森林(RF)、Xgboost、LightGBM

LRU算法，你别跑，我就要吃透你

人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

人工智能与机器学习入门：决策树应用