机器学习第十四讲:线性回归 → 画最佳趋势线预测明日气温
资料取自《零基础学机器学习》。
查看总目录:学习大纲
关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南
线性回归全面讲解:像画趋势线预测明天温度🌡
什么是线性回归?
线性回归的本质是帮我们找到一条最佳趋势线,用历史数据预测未来的数值结果。就像我们用温度计记录每天的温度变化,然后画出一条最贴合这些点的趋势线,就能预测明天的气温有多高1。
生活化案例:广告费预测销售额💰
假设你的奶茶店每周投放不同金额的微信广告(比如100元、200元),并记录对应的销售额(比如卖出200杯、350杯)。线性回归帮我们找到广告费(X)与销售额(Y)之间的关系函数,下次投入300元广告时,就能预估能卖出多少杯奶茶1。
3步理解核心原理
1️⃣ 定义函数:假设广告费X和销售额Y的关系是 Y = w*X + b
w
:斜率(每多投1元广告能多卖几杯)b
:截距(不投广告时原本能卖多少杯)
2️⃣ 找最佳参数:通过梯度下降调整w和b,让预测误差最小
- 就像调空调温度:先往“冷”调再往“热”调,找到最舒服的平衡点1
3️⃣ 验证效果:用R²分数评估趋势线的贴合程度
- 0.6分表示模型能解释60%的数据变化,分数越高预测越准2
实战演示:预测加州房价🏠
书中案例用家庭收入中位数预测房价中位数:
- 数据可视化:家庭收入越高,房价整体越高(散点图呈上升趋势)
- 训练模型:Sklearn库的
LinearRegression()
自动算出最佳w和b - 结果展示:绿色趋势线完美贴合数据点,R²分数达0.63[1]
# 代码示例(书中案例简化版)
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(家庭收入数据, 房价数据)
预测房价 = model.predict([[新家庭收入]])
重要特性总结
常见误区提醒
- ❗数据质量决定上限:如果广告费和销售额根本没有线性关系(比如投放无效广告),模型再准也预测不准3
- ❗关注业务逻辑:不能仅凭数学关系下结论(比如冰激凌销量和溺水事故同时上升,可能都是夏天温度高导致的假相关)3
通过生活中的例子和可视化展示,线性回归的核心思想变得清晰易懂。结合书中的代码案例亲手实践,你会更深入理解这条“趋势线”如何揭示变量间的奥秘13。
目录:总目录
上篇文章:机器学习第十三讲:独热编码 → 把红黄蓝颜色变成001等的数字格式
下篇文章:机器学习第十五讲:决策树全面讲解:像玩"20个问题"游戏猜身份🎮
- 《零基础学机器学习》第五章第一节线性回归 ↩
- 《零基础学机器学习》第二章第二节概率基础 ↩
- 《零基础学机器学习》第三章数据预处理 ↩
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。