机器学习第十四讲:线性回归 → 画最佳趋势线预测明日气温

资料取自《零基础学机器学习》
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


线性回归全面讲解:像画趋势线预测明天温度🌡

什么是线性回归?

线性回归的本质是帮我们找到一条最佳趋势线,用历史数据预测未来的数值结果。就像我们用温度计记录每天的温度变化,然后画出一条最贴合这些点的趋势线,就能预测明天的气温有多高1

生活化案例:广告费预测销售额💰

假设你的奶茶店每周投放不同金额的微信广告(比如100元、200元),并记录对应的销售额(比如卖出200杯、350杯)。线性回归帮我们找到广告费(X)与销售额(Y)之间的关系函数,下次投入300元广告时,就能预估能卖出多少杯奶茶1

graph LR
    历史广告数据 --> 线性回归模型
    线性回归模型 --> 预测未知销售额

3步理解核心原理

1️⃣ 定义函数:假设广告费X和销售额Y的关系是 Y = w*X + b

  • w:斜率(每多投1元广告能多卖几杯)
  • b:截距(不投广告时原本能卖多少杯)

2️⃣ 找最佳参数:通过梯度下降调整w和b,让预测误差最小

  • 就像调空调温度:先往“冷”调再往“热”调,找到最舒服的平衡点1

3️⃣ 验证效果:用R²分数评估趋势线的贴合程度

  • 0.6分表示模型能解释60%的数据变化,分数越高预测越准2

实战演示:预测加州房价🏠

书中案例用家庭收入中位数预测房价中位数:

  1. 数据可视化:家庭收入越高,房价整体越高(散点图呈上升趋势)
  2. 训练模型:Sklearn库的LinearRegression()自动算出最佳w和b
  3. 结果展示:绿色趋势线完美贴合数据点,R²分数达0.63[1]
# 代码示例(书中案例简化版)
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(家庭收入数据, 房价数据)
预测房价 = model.predict([[新家庭收入]]) 

重要特性总结

  • 解决连续预测:温度、房价、销售额等数值型问题都能处理1
  • 可解释性强:直接看到"每增加1元广告费多卖几杯奶茶"的量化关系1
  • 易扩展:多个影响因素(如微博广告+微信广告)可组合成多元线性回归2

常见误区提醒

  • 数据质量决定上限:如果广告费和销售额根本没有线性关系(比如投放无效广告),模型再准也预测不准3
  • 关注业务逻辑:不能仅凭数学关系下结论(比如冰激凌销量和溺水事故同时上升,可能都是夏天温度高导致的假相关)3

通过生活中的例子和可视化展示,线性回归的核心思想变得清晰易懂。结合书中的代码案例亲手实践,你会更深入理解这条“趋势线”如何揭示变量间的奥秘13


目录:总目录
上篇文章:机器学习第十三讲:独热编码 → 把红黄蓝颜色变成001等的数字格式
下篇文章:机器学习第十五讲:决策树全面讲解:像玩"20个问题"游戏猜身份🎮



  1. 《零基础学机器学习》第五章第一节线性回归
  2. 《零基础学机器学习》第二章第二节概率基础
  3. 《零基础学机器学习》第三章数据预处理

kovli
13 声望8 粉丝