头图

1.回归模型简介

我们先来看一下什么是回归模型,以下解释来源于百度百科:

回归模型是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系

回归模型最重要的两个应用场景就是预测分析和因果关系分析,比如我们上学的时候学过的一元一次方程组y = kx + b就是一个最简单的回归模型,当我们知道一个x时,比如此时的x是月份,就可以通过方程求出这个这个x对应的y,这里的y可以是销量,这个通过x求取y的过程就是一个预测的过程。

回归模型主要分为一元线性回归和多元线性回归,这一节先给大家讲一下一元线性回归。

2.参数估计

参数估计是做什么的呢?是估计什么参数呢?就是用来估计方程y = kx + b中的k和b的。可能有的人会有这样的疑问,为什么要估计呢?而不是直接去算。我们在上学的时候是可以直接去算的,那是因为只有两个点,通过这两个点的直线是确定的,所以对应的参数也是固定的。

而在实际应用中,我们的数据点往往都是多个,这多个点往往不在一条直线上,但是呢,我们又希望这些点尽可能的都在一条直线上,所以我们需要找到这么一条直线,这条直线到每个数据点的距离都很近(接近于0),这样我们就可以用这条距离每个点都尽可能近的直线来近似表示这些点的一个趋势。这条线对应的 k 和 b 就是我们估计出来的参数。

我们在找这一条直线的有一个原则,就是每个点到这条线的距离尽可能的小,最后让所有点到直线的距离最小,我们把这种方法称为最小二乘法,最小二乘法是参数估计的一种方法。

关于最小二乘法的更多内容,大家可以自行学习。

3.拟合程度判断

通过上面的参数估计,我们已经得到了一条可以反映数据点趋势的线,可是这条线到底准确度如何,也就是和实际数据点走势的拟合程度是怎么样的,我们需要来判断一下。

这里介绍几个关于判断拟合程度的概念。

总平方和(SST):实际值与其平均值之间距离的平方和,可以理解为方差(而非实际方差),用来反映实际值y波动大小的。

回归平方和(SSR):回归值(即预测出来的y值)与实际值均值之间距离的平方和。这一部分变化是由于自变量的变化引起的,是可以由回归直线来解释的。

残差平方和(SSE):回归值与实际值之间距离的平方和。这一部分是除了自变量影响之外的其他影响因素造成的,属于不可解释部分。

SST = SSR + SSE,

上述公式表面实际值y的波动情况由两部分因素决定,一部分是由于自变量x不一样导致的y的变动(回归平方和),另一部分是由于除自变量以外的因素决定(残差平方和)。

我们理想情况下,实际值y的波动尽可能都可能都是因为自变量x变化引起的,而且这个占比越高越可以说明我们的回归直线拟合的好。我们把这个指标称为 R^2 = SSR/SST。

R^2越大,说明拟合度越好,介于[0,1]之间。

4.显著性检验

通过前面的步骤参数也求出来了,也就是y = kx + b中的 k 和 b 求出来了,那我们是不是就可以直接拿来用了呢?很显然不太能,为什么呢?因为你参数估计是根据你现有样本数据估计出来的,所以直线反映的也是现有数据情况下的趋势,这些数据的趋势能否代表全量数据的趋势呢?我们需要检验一下,这就是显著性检验。

回归直线其实是用来反映 x 和 y 之间的线性关系的,所以我们首先要检验的就是线性关系是否显著,那怎么来检验,还是用我们之前讲过的假设检验的方法。

我们先假设 x 和 y 之间是没有线性关系的,如果没有线性关系是不是k就等于0,那既然这样总平方和的的波动是不是就完全由残差平方和决定了,那是不是意味着 SSR/SSE 基本为0,这是我们通过如果没有线性关系这个假设得出来的结论。

还是前面方差分析中提到的,平方和会随着样本数据的增加而增加,所以我们就需要把平方和转换成均方,即平方和/自由度。

在一元线性回归中,回归平方和的自由度为1(即自变量的个数),残差平方和的自由度为n-2。

统计量F

=(SSR/1)/(SSE/(n-2))

=MSR/MSE。

根据样本数据计算得出F值,确定显著性水平,查显著性水平对应的F边界值,如果F>F边界值,则拒绝原假设,否则不拒绝原假设。

5.回归方程应用

一元回归方差主要用来做预测,分为点预测与区间预测,点预测就是通过回归方程预测今年12月份的具体销量是多少;区间预测是通过回归方程得到今年12月份销量的范围大概是在哪一区间内。

点预测比较简单,直接把x代入到方程中就可以得出结果。区间预测稍微比较复杂一些,但是区间预测的本质还是我们之前讲过的置信区间[聊聊置信度与置信区间]的求取,关键点就两个,一个是样本均值,一个是标准差。样本均值也比较简单,标准差的公式如下:
image


张俊红
1 声望3 粉丝