前言
相关与回归分析是分析变量之间关系的统计方法,本章只介绍简单的相关分析和一元线性回归。
变量间关系的度量
变量之间存在的不确定的数量关系,称为相关关系
即当给定一个自变量 x x x,其对应的因变量 y y y值可能有好几个,这种关系不确定的变量显然不能用函数关系来描述,但也不是没有规律可循,相关分析就是分析这类数据的方法。
相关系数
相关系数是反映两个数值变量之间关系的指标。
对于数值变量 x x x和 y y y,我们可以通过散点图来判断两个变量之间是否有相关关系,并对这种关系进行大致的描述,但是没法给出定量的描述,因此需要计算相关系数。
相关系数也分为总体相关系数和样本相关系数,下面给出样本相关系数的计算公式:
r = ∑ ( x − x ‾ ) ( y − y ‾ ) ∑ ( x − x ‾ ) 2 ∑ ( y − y ‾ ) 2 r=\frac{\sum{(x-\overline x )(y-\overline y)}}{\sqrt{\sum{(x-\overline x)^2}\sum(y-\overline y)^2}} r=∑(x−x)2∑(y−y)2∑(x−x)(y−y)
其中 x ‾ \overline x x表示 x x x的均值,使用该公式计算出的相关系数也称Pearson相关系数。
Pearson相关系数的注意事项:
- r r r的取值范围为-1~1,如果 r r r大于0,说明 x x x和 y y y之间存在正相关关系,如果 r r r小于0, x x x和 y y y之间存在负相关关系;当 r r r等于0,说明 x x x和 y y y之间没有线性相关关系,也即 y y y的取值与 x x x无关;
- r r r具有对称性。即 x x x和 y y y之间的相关系数 r x y r_{xy} rxy和 y y y与 x x x之间的相关系数 r y x r_{yx} ryx相等,即 r x y = r y x r_{xy}=r_{yx} rxy=ryx;
- r r r的值大小与 x x x与 x x x的尺度无关,改变 x x x和 y y y的数据及其计量尺度,并不影响 r r r的值;
- r r r只能用来描述线性关系,不能描述非线性关系,所以在计算相关系数前,我们可以先绘制散点图来观测数据分布,如果数据的分布不是明显的线性关系,那么也就没有计算相关系数的必要了;
- r r r的值只是一个参考,并不能说明 x x x和 y y y之间存在因果关系;
相关系数 | 相关程度 |
---|---|
| r | = = = 1 | 完全线性关系 |
0.8 ≤ \le ≤ | r | ≤ \le ≤ 1 | 高度相关关系 |
0.5 ≤ \le ≤ | r | ≤ \le ≤ 0.8 | 中度相关关系 |
0.3 ≤ \le ≤ | r | ≤ \le ≤ 0.5 | 低度相关关系 |
| r | ≤ \le ≤ 0.3 | 极弱相关关系 |
| r | = = = 0 | 不存在线性关系 |
相关关系的显著性检验
一般情况下,总体的相关系数 p p p是未知的,我们只能通过样本数据计算 r r r,通常都是用 r r r来近似表示 p p p,至于能否使用样本相关系数来代替总体相关系数,就需要我们对样本相关系数的可靠性进行假设检验。 r r r的相关性检验又叫做 t t t分布检验,可以用于大样本,也可以用于小样本。具体检验步骤如下:
提出假设。 H 0 : p = 0 H_0:p=0 H0:p=0 H 1 : p ≠ 0 H_1:p \ne 0 H1:p=0
计算检验统计量 r = ∣ r ∣ n − 2 1 − r 2 r=|r| \sqrt{\frac{n-2}{1-r^2}} r=∣r∣1−r2n−2
进行决策,根据给定的显著性水平 α \alpha α和自由度 d f = n − 2 df=n-2 df=n−2查 t t t分布表,查出 t α / 2 ( n − 2 ) t_{\alpha /2}(n-2) tα/2(n−2)的临界值。若 ∣ t ∣ ≥ t α / 2 |t|\ge t_{\alpha/2} ∣t∣≥tα/2,则拒绝原假设 H 0 H_0 H0,表明总体的两个变量之间存在显著的线性关系。
值得注意的是为什么自由度为n-2,这是因为相关系数的变量是 x x x和 y y y两个,所以自由度为2个。
自由度: 自由度指的是计算某一统计量时,取值不受限制的变量个数。 通常 d f = n − k df=n-k df=n−k。 其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。
一元线性回归
回归分析非常重要!
很早之前就接触过回归分析,那个时候还只是知道给定两组数据,使用Matlab的回归函数直接计算系数,然后进行预测。从来不知道回归分析的详细推导,其实别看回归分析非常简单,后面包含的知识体系非常大。
回归分析包含线性回归和非线性回归,线性回归中有包含一元线性和多元线性,我们这里只研究一元线性回归。
描述因变量 y y y如何依赖于自变量 x x x和误差项 ε \varepsilon ε的方程,称为回归模型。对于只涉及一个自变量的一元线性回归模型如下:
y = β 0 + β 1 x + ε y = \beta_0+\beta_1 x+\varepsilon y=β0+β1x+ε
y y y的值是由自变量 x x x和误差项所决定,误差项 ε \varepsilon ε是一个期望值为0的随机变量,即 E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0,这也意味着,模型中的 β 0 \beta_0 β0和 β 1 \beta_1 β1是常数,于是 y y y的期望值 E ( y ) = β 0 + β 1 x E(y)=\beta_0+\beta_1 x E(y)=β0+β1x。
参数的最小二乘估计
对于第 i i i个值 x x x,估计的回归方程可以表示为:
y ^ i = β ^ 0 + β ^ 1 x \hat y_i=\hat \beta_0 + \hat \beta_1x y^i=β^0+β^1x
我们现在需要找到求解参数 β 0 \beta_0 β0和 β 1 \beta_1 β1的方法。这种方法就是最小二乘法。
在前面梯度下降法哪里就介绍了求解回归方程的一种方法,用梯度下降法迭代,在这里我们介绍另一种方法,叫做最小二乘法,其实思想非常简单,就是求导。
首先定义一个类似损失函数的式子:使因变量的观察值 y i y_i yi和估计值 y ^ i \hat y_i y^i之间的离差平均和达到最小来求得 β ^ 0 \hat \beta_0 β^0和 β ^ 1 \hat \beta_1 β^1,于是有:
Q = ∑ ( y i − y ^ i ) 2 Q = \sum{(y_i-\hat y_i)^2} Q=∑(yi−y^i)2
这里的 Q Q Q有点像损失函数,对其求偏导然后等于0:
∑ i = 1 n y i = n β ^ 0 + β ^ 1 ∑ i = 1 n x i ∑ i = 1 n x i y i = β ^ 0 ∑ x i n x i + β ^ 1 ∑ i = 1 n x i 2 \sum\limits_{i=1}^n{y_i=n\hat\beta_0+\hat\beta_1\sum\limits_{i=1}^n}x_i\\ \sum\limits_{i=1}^n{x_iy_i}=\hat\beta_0\sum\limits_{x_i}^n{x_i}+\hat\beta_1\sum\limits_{i=1}^n {x_i^2} i=1∑nyi=nβ^0+β^1i=1∑nxii=1∑nxiyi=β^0xi∑nxi+β^1i=1∑nxi2
解上述方程组为:
β ^ 1 = n ∑ i = 1 n x i y i − ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 β ^ 0 = y ‾ − β ^ 1 x ‾ \hat\beta_1=\frac{n\sum\limits_{i=1}^nx_iy_i-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^ny_i}{n\sum\limits_{i=1}^nx_i^2-(\sum\limits_{i=1}^nx_i)^2}\\ \hat\beta_0 = \overline y-\hat\beta_1 \overline x β^1=ni=1∑nxi2−(i=1∑nxi)2ni=1∑nxiyi−i=1∑nxii=1∑nyiβ^0=y−β^1x
利用最小二乘法就可以求解合适的参数,一般在遇到问题时,我们都是借助计算机来求解,因为计算机只需要导入数据,直接可以生成所有结果。
在平时做题时,我们利用最小二乘法求解完参数就以为结束了,但是事实上还有很多工作没有做,或者说做了我们不知道,例如参数的检验,线性关系的检验和拟合效果评价。
回归直线的拟合优度
我们利用最小二乘法对数据进行了拟合,但是效果怎么样却不能直观看出,我们需要计算相关的指标,其中用来评价拟合效果的指标就是判定系数。
判定系数又称 R 2 R^2 R2,在了解 R 2 R^2 R2是如何计算前,需要了解几个定义:
首先是 S S T SST SST, S S T = ∑ ( y i − y ‾ ) 2 SST=\sum(y_i-\overline y)^2 SST=∑(yi−y)2,我们称之为离差平方和,这个值是确定的,因为两个值都可以直接计算得出,现在对 S S T SST SST进行一个分解,得到:
S S T = ∑ ( y i − y ‾ ) 2 = ∑ ( y ^ i − y ‾ ) 2 + ∑ ( y i − y ^ i ) 2 SST=\sum(y_i-\overline y)^2=\sum(\hat y_i-\overline y)^2+\sum(y_i-\hat y_i)^2 SST=∑(yi−y)2=∑(y^i−y)2+∑(yi−y^i)2
它有两部分组成,为了搞明白 R 2 R^2 R2的计算原理,需要用到上述的两部分,分别为 S S R SSR SSR和 S S E SSE SSE,于是得到:
总 平 方 和 ( S S T ) = 回 归 平 方 和 ( S S R ) + 残 差 平 方 和 ( S S E ) 总平方和(SST)=回归平方和(SSR)+残差平方和(SSE) 总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
而判定系数的计算公式如下:
R 2 = S S R S S T = ∑ ( y ^ i − y ‾ ) 2 ∑ ( y i − y ‾ ) 2 R^2=\frac{SSR}{SST}=\frac{\sum(\hat y_i-\overline y)^2}{\sum(y_i-\overline y)^2} R2=SSTSSR=∑(yi−y)2∑(y^i−y)2
从上面的式子可以看出,我们进行回归的目的就是让残差平方和最小,其实转变一下就是让 S S R SSR SSR与 S S T SST SST的比值越大,这一点很有意思, R 2 R^2 R2越接近于1,说明 y ^ \hat y y^和 y y y的值也越接近。
我们可以用它来评价回归直线拟合的效果如何,当 R 2 R^2 R2的值越接近于1,就说明我们拟合的模型效果就越好。
在前面的相关系数我们计算的相关系数是 r r r,这里的判定系数为 R 2 R^2 R2,都含有 r r r,那么它们之间是否有某种关系呢?
答案是肯定的,在一元线性回归中,相关系数 r r r实际上就是判定系数的平方根,利用这一结论就可以直接计算判断系数了。在前面我们说过通过 r r r可以看出观测数据的线性关系如何,那么这里又知道也可以通过 r r r来说明回归直线的拟合优度,但是有一点需要注意,用 r r r来直接评判拟合优度的效果并没有 R 2 R^2 R2好,因为当 r r r
的值为0.5时, R 2 R^2 R2才有0.25,拟合的效果并不好,当 r r r的值为0.7时, R 2 R^2 R2才有0.5。所以我们一般不直接用 r r r的值来评价模型的拟合优度。
回归直线的误差
上一节介绍的是回归直线的拟合优度,也就是拟合效果,通过计算判定系数来反映模型的拟合情况,这一节我们要讨论的是模型的预测能力,也就是测量各实际观测点在直线周围的散布状况,这个量就是标准误差,也叫 M S E MSE MSE。
还记得在机器学习中了解到 M S E MSE MSE是均方误差,在那里叫做:Mean squared error,而这里叫做估计量的标准差:Standard error of estimate。虽然说定义上不同,但是我觉得都大差不差,我是把两种的适用范围混在一起了,本文的标准差计算公式如下:
S e = ∑ ( y i − y ^ i ) 2 n − 2 = S S E n − 2 = M S E S_e=\sqrt{\frac{\sum(y_i-\hat y_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE} Se=n−2∑(yi−y^i)2=n−2SSE=MSE
若 S e S_e Se的值为0,则说明误差为0,侧面表示了拟合优度很好。
M S E MSE MSE反映了用估计的回归方程预测因变量 y y y时预测误差的大小。
显著性检验
没错,又是显著性检验,这已经是本文第二次接触显著性检验了,在前面说要检验相关系数的可靠性,在这里也需要检验回归系数的可靠性。不仅仅要检验回归系数的可靠性,还需要检验线性关系的可靠性,是不是很多?其实不需要担心这么多,这些东西计算机会帮我们计算好。
在前面说过,在根据样本来拟合回归方程时,实际上已经假定变量 x x x与 y y y之间存在线性关系,即 y = β 0 + β 1 x + ε y=\beta_0+\beta_1x+\varepsilon y=β0+β1x+ε,并假定误差项 ε \varepsilon ε是一个服从正态分布的随机变量,且对不同的 ε \varepsilon ε都有相同的方差,但这些假设是否成立,需要检验才能证实。
线性关系的检验
第一个需要检验的就是自变量 x x x和因变量 y y y之间的线性关系是否显著,或者说,它们是否满足假定的条件。所有的检验方法都需要构建一个检验统计量,在这里统计量的构建是以回归平方和 S S R SSR SSR以及残差平方和 S S E SSE SSE为基础的。将 S S R SSR SSR除以其相应的自由度(自变量的个数 k k k,一元回归中的 k k k等于1)后的结果称为均方回归,记为 M S R MSR MSR,我们在这里关心的是线性关系显著,所以备择假设应该就是 x x x和 y y y满足线性关系,那么原假设就是 x x x和 y y y不满足线性关系,具体步骤如下:
提出假设 H 0 : β 1 = 0 , 两 个 变 量 之 间 的 线 性 关 系 不 显 著 H 1 : β 1 ≠ 0 , 两 个 变 量 之 间 的 线 性 关 系 显 著 H_0:\beta_1=0,两个变量之间的线性关系不显著\\ H_1:\beta_1\ne0,两个变量之间的线性关系显著 H0:β1=0,两个变量之间的线性关系不显著H1:β1=0,两个变量之间的线性关系显著
计算检验统计量 F F F F = S S R / 1 S S E / ( n − 2 ) = M S R M S E F = \frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE} F=SSE/(n−2)SSR/1=MSEMSR
做出决策,根据显著性水平 α \alpha α和 F F F统计量的 P P P值,若 P < α P<\alpha P<α,拒绝原假设,表明两个变量之间的线性关系是显著的,反之则不显著。
线性关系的检验其实就是方差分析,关于两者的关系参考这篇文章方差分析与回归的关系
回归系数的检验
回归系数的显著性检验就是要检验自变量对因变量的影响是否显著的问题。其实就是检验回归系数是否等于0,详细步骤如下:
- 提出假设
H 0 : β 1 = 0 H 1 : β 1 ≠ 0 H_0:\beta_1=0\\ H_1:\beta_1\ne0 H0:β1=0H1:β1=0- 计算检验统计量 t t t
t = β ^ 1 s β ^ 1 t = \frac{\hat \beta_1}{s_{\hat \beta_1}} t=sβ^1β^1- 做出决策,根据显著性水平 α \alpha α和 t t t统计量的 P P P值,若 P < α P<\alpha P<α,拒绝原假设,表明自变量 x x x对因变量 y y y的影响是显著的,反之则不显著。
回归方程的预测
经过一系列的假设检验等等,终于找到合适和回归方程,现在我们可以使用这个方程进行预测。有人说,预测这不是很简单嘛,给定一个 x x x值,把 x x x带入回归方程直接计算不就行了嘛。没错就是这么简单,但是除此之外,我们还可以计算区间估计值,而这个区间估计值又分为两种:置信区间和预测区间。
置信区间
对于一个特定的 x 0 x_0 x0值,求出 y y y的平均值的估计区间就是区间估计。一般来说, E ( y 0 ) E(y_0) E(y0)在 1 − α 1-\alpha 1−α置信水平下的置信区间可以表示为:
y ^ 0 ± t α / 2 s e 1 n + ( x 0 − x ‾ ) 2 ∑ i = 1 n ( x i − x ‾ ) 2 \hat y_0\pm t_{\alpha/2}s_e\sqrt{\frac{1}{n}+\frac{(x_0-\overline x)^2}{\sum\limits_{i=1}^n(x_i-\overline x)^2}} y^0±tα/2sen1+i=1∑n(xi−x)2(x0−x)2
上面的 s e s_e se是均方残差。 t α / 2 t_{\alpha/2} tα/2是通过查表得到的。
预测区间
对 x x x的一个给定值 x 0 x_0 x0,求出 y y y的一个个别值的区间估计,称为预测区间估计,计算公式如下:
y ^ 0 ± t α / 2 s e 1 + 1 n + ( x 0 − x ‾ ) 2 ∑ i = 1 n ( x i − x ‾ ) 2 \hat y_0\pm t_{\alpha/2}s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\overline x)^2}{\sum\limits_{i=1}^n(x_i-\overline x)^2}} y^0±tα/2se1+n1+i=1∑n(xi−x)2(x0−x)2
可以看到预测区间和置信区间的计算公式是非常的相似,只是预测区间中多了一个1。因此对于同一个 x 0 x_0 x0,这两个区间的宽度也是不一样的,预测区间要比置信区间宽一些。
预测区间和置信区间的关系
至于为什么会有两个区间,这一点开始是比较困惑我的,预测区间和置信区间该怎么选呢?
在网上看到一个不错的回答:
预测区间:95%的预测区间,意味着,在此总体中随机抽取100个样本,其中大概有95个的个别值会落在这个区间
置信区间:95%的置信区间,意味着,从总体中随机抽取若干样本,其平均值会落在这个范围
一般来说,置信区间的参考意义更大,我们在平时做题的时候接触的基本上都是置信区间。
总结
相关系数和线性回归的内容肯定不止这么一点,这里也没把所有的内容都一一列出,我只是挑选了最基础最重要的部分。
文章评论