机器学习（吴恩达）——小白笔记（3）:代价函数：可视化，梯度下降

1. 代价函数公式

线性回归函数与代价函数

2. 理解代价函数

根据训练集（training set)建立模型，通过代价函数的计算，寻求使得代价函数值最小的参数w,b，以下为简单示例，为了简化模型，将b设为0，右图为参数w和代价函数所求值的关系图

当w=1时，代价函数的值=0：

当w=0.5时，代价函数的值≈0.58

当w=0时，代价函数的值=2.3

通过在一定范围内寻找w的值，最终确定回归线性函数的值

3. 可视化代价函数

当w,b两个参数同时参与训练模型的代价函数计算，j,w,b的关系图时一个三维的:

4. 梯度下降

适用于多个参数的更为一般的函数模型

对于不是碗状的函数模型，可能存在不止一个最小值

两条路径达到的最低点都称为局部最小值，沿着某一条路径梯度下去，不会走到另外一条路径，这是梯度下降法的一个特性
Gradient Descent algorithm 公式：

α是学习率（learning rate)：区间范围为0~1，一般来说是0.01，作用：控制梯度下降的幅度
α/αwJ(w,b)是对w参数的求偏导（derivative）

与上同理
梯度下降算法会重复以上两个更新步骤，直到算法收敛，以达到局部最优，计算w和b时，需要同时进行，下列左侧为正确算法，右侧时错误算法

梯度下降中导数的意义：

斜率为正时，w向横轴的左侧移动，w变小，j(w)变小
斜率为负时，w向横轴的右侧移动，w变大，j(w)变小

学习率过小或过大造成的影响：

过小的情况下，梯度下降非常缓慢，一致成本函数j值下降过慢
过大的情况下，梯度下降过大，可能永远无法抵达到函数的最低值，甚至出现发散的情况

如果参数是的代价函数下降到了局部最小值，梯度下降将停止

越接近局部最小值，导数将变得更小，梯度下降更新将会变得更小，函数可以下降到局部最小值而不需要改变学习率α

机器学习（吴恩达）——小白笔记（3）:代价函数：可视化，梯度下降

1. 代价函数公式

2. 理解代价函数

3. 可视化代价函数

4. 梯度下降

Tired

引用和评论

机器学习（吴恩达）——小白笔记（8）：Tensorflow实现

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

科学计算编程涉及到的技术栈简介

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

vLLM 实战教程汇总，从环境配置到大模型部署，中文文档追踪重磅更新

性能远超SAM系模型，苏黎世大学等开发通用3D血管分割基础模型

【vLLM 学习】基础教程