线性回归分析-矩阵版

线性回归分析——PartII

为什么我们一开始不讲矩阵呢?这是因为如果一上来就研究多元线性回归,就会忽略掉很多细节,而且还听不懂

线性回归的模型与假设

多元线性回归就是多个x,其线性回归模型为:

y为响应变量/因变量,为一个随机变量;

x为协变量/自变量,通常假定是确定性的变量

$\beta_0,\beta_1\cdots,\beta_p $是$p+1$个未知参数:

$\varepsilon$为随机误差,并假定:$\cases{E(\varepsilon) = 0\~\Var(\varepsilon) = \sigma^2}$

那么,对于n组观测数据,$(x{i1},x{i2},\cdots,x_{ip},y_i)$,我们可以写出回归方程模型:

对于这些方程,我们可以将其抽象出来形成矩阵、向量的形式

吗线性回归模型的矩阵形式为:

我们看到,用矩阵的方式来表示模型,会比较简洁。

那么,我们要做的就是估计参数向量$\boldsymbol{\beta}$​​ ,带入模型,这样就可以预测出$\hat y$

线性回归的基本假定

为了便于参数估计,需要对回归方程进行一些假设:

  1. 关于设计矩阵$\boldsymbol X$
  • 它是确定性变量,不是随机变量。在预测的时候,是给定确定的x的条件下去做的预测
  • 要求$rank(\boldsymbol{X}) = p+1<n$​,这表明了这是个列满秩的矩阵,每一维都不能被其他特征线性表出,每一列的自变量之间不相关。样本量应大于自变量的个数,$\boldsymbol X$​是一个满秩矩阵
  1. 关于随机误差是零均值且等方差的
  • $E(\varepsilon_i) =0,i=1,2\cdots,n$ 表示没有系统误差
  • $Cov(\varepsilon_i,\varepsilon_j) = \cases{\sigma^2,i=j\0,i\neq j},i,j = 1,2\cdots,n$​ 表明随机在不同的样本点之间是不相关的(在正态假定下即独立的),不存在序列相关,并且有相同的精度。只有自身和自身存在协方差(等于方差)

这个条件常被称为高斯-马尔可夫条件

  1. 假定随机误差服从正态分布

即:$\cases{\varepsilon_i\sim N(0,\sigma^2),i=1,2\cdots,n\~\\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n\text{相互独立}}$

在这个假设下,随机误差向量服从:

即每一维的误差都来自一个正态分布。

$\boldsymbol y$ 分为前后两部分,前面是确定性的,而后半部分$\boldsymbol\varepsilon$ 是随机性的,又 $X$也是服从正态分布的,因此等价于假定因变量$\boldsymbol y$ 服从n维正态分布,其期望向量和协方差矩阵分别为:

线性回归模型的参数估计

最小二乘估计

根据这张图我们可以定义离差,也就是实际观测值和估计值的差,即 $y_i-\boldsymbol x_i\boldsymbol \beta$

由此我们可以给出最小二乘估计:通过最小化离差平方和而得到的估计方法

对于线性模型,离差平方和可以定义为:

最小二乘估计为:

这其实是一个数,即行向量乘以列向量,我们可以这样改写上式:

我们要发现$\boldsymbol {y’X\beta}$和$\boldsymbol{\beta’X’y}$ 都是一个数因此可以合并同类项

这样写好以后,相当于一个$\boldsymbol\beta$ 的二次函数,我们可以通过对其求导来找到$\min \boldsymbol \beta$​

补充

对于一个向量,我们怎么求其最小值呢,在这里我们补充一些求导的公式:

对于一个 p 维向量 $\boldsymbol x = (x_1,x_2\cdots,x_p)’$

  • 线性函数求导:对于任意常向量 $\boldsymbol a = (a_1,a_2\cdots,a_p)’$, 我们有:
  • 二次型求导:对于任意$p\times p$ 常值矩阵 $\boldsymbol B$ 我们有:

​ 特别地,若 $\boldsymbol B$ 是一个对称矩阵,那么

具体计算方法

我们用 $Q(\boldsymbol \beta)$ 关于$\boldsymbol \beta$​ 求导,可得:

令 $\frac{\partial Q(\boldsymbol \beta)}{\partial \boldsymbol \beta}=0$ 可得:

基于假设(1),$\boldsymbol {X’X}$ 是满秩的,因此 $(\boldsymbol{X’X})^{-1}$ 存在,由此,最小二乘估计为:

说明:

  • 根据上式可知,在最小二乘估计$ \boldsymbol{\hat \beta}$​ 时,需要$(\boldsymbol{X’X})^{-1}$​ 必须存在。也就是说,$(\boldsymbol{X’X})$是一非奇异矩阵,即$\left| {\boldsymbol{X’X}} \right |\neq 0$
  • 由线性代数可知 ,$rank(\boldsymbol X)\geq rank(\boldsymbol{X’X})$​, 如果$\boldsymbol{X’X}$ 为 p+1阶满秩矩阵,也就是说 $rank(\boldsymbol{X’X})=p+1$,那么$rank(\boldsymbol X)\geq p+1$​
  • 另一方面,设计矩阵$\boldsymbol X$​ 为 $n\times (p+1)$ 阶矩阵,于是应用 $n\geq (p+1)$ 这表明了采用最小二乘法估计方法求解线性回归的未知参数,样本量必须不少于模型的参数个数​

拟合值

求得 $\boldsymbol {\hat\beta}_{LS}$之后,我们可以定义回归值或者拟合值为:

其中,$\hat y_i = \boldsymbol x_i’\boldsymbol{\hat\beta} ,~~i=1,2\cdots,n$​​​

我们将 $\boldsymbol {\hat\beta}$ 用上面求得的最小二乘估计带入,得到:

矩阵 $\boldsymbol {X(X’X)^{-1}X’}$​ : 将观测值$\boldsymbol y$​ 变换为 $\boldsymbol {\hat y}$​ ,从形式上来看,就是给$\boldsymbol y$​ 戴上了一顶帽子 $\hat ~$​ ,因为形象地称矩阵 $\boldsymbol{X(X’X)^{-1}X’}$​ 为帽子矩阵,记为$\boldsymbol H$​

于是: $\boldsymbol{\hat y} = \boldsymbol {Hy} $​ ​

帽子矩阵的性质

帽子矩阵 $\boldsymbol H = \boldsymbol {X(X’X)^{-1}X’}$ 具有以下的一些性质:

  1. $\boldsymbol H$ 是n阶对称矩阵

  2. $\boldsymbol H$ 是幂等矩阵,即$\boldsymbol H =\boldsymbol H^2$

  3. $\boldsymbol H$ 的迹为 $p+1$,即 $tr(\boldsymbol H)=p+1$

证明1:

由于$\boldsymbol H$ 的转置矩阵等于$\boldsymbol H$ ,所以$\boldsymbol H$ 是对称的

证明2:

因此$\boldsymbol H$是幂等矩阵

证明3:

易知$\boldsymbol{X’X}$​​是一个 $(p+1)\times(p+1)$ 的满秩矩阵。于是我们计算$\boldsymbol H$ 的迹,即:

我们要知道矩阵迹的运算性质:多个矩阵相乘得到的方阵的迹,和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的,即:

残差

说完了拟合值,我们聚焦到最后一个部分——残差

我们把残差定义为拟合值和真实值之间的距离

也可以写为 :

几何上的关系:回归值 $\boldsymbol {\hat y}$​与残差$\boldsymbol e$ 垂直,即:

然后,我们写出残差的协方差矩阵为:

由此,我们可以构造误差项方差$\sigma^2$ 的估计,用残差去估算即:

极大似然估计

现在我们介绍第二种方法——极大似然估计。$\boldsymbol y$ 是服从多元正态分布的,即:

因此 $\boldsymbol y$ 的联合密度函数为:

参数 $( \beta,\sigma ^2) $​​​的 似然函数为

进而我们给出极大似然估计 :

具体计算方法

对数似然函数分布关于$\boldsymbol \beta$​和和$\sigma^2$​求导,即

反解得到:

说明:

$\boldsymbol{\hat\beta}{ML}=\boldsymbol{\hat\beta}{LS}$ ,因此,我们不用写下标了,一般记为 $\boldsymbol{\hat\beta} = (\boldsymbol{X’X})^{-1}\boldsymbol{X}’\boldsymbol y$​

$\hat\sigma^2_{ML}$ 不是一个无偏估计,但是一个相合估计

参数估计性质

概率论 关于矩阵的期望方差复习。假设$\boldsymbol {x,y}$是n维随机变量。对任意一个$m\times n$ 维常矩阵 $\boldsymbol A$ 和一个$m’\times n$ 维常矩阵$\boldsymbol B$​,以及一个m维向量$\boldsymbol c$

  • $E(\boldsymbol {Ax+c})=\boldsymbol{A}E(\boldsymbol {x})+\boldsymbol c$
  • $Var(\boldsymbol{Ax+c})=\boldsymbol A\text{Var(x)}A’$
  • $Cov(\boldsymbol{Ax,By})=\boldsymbol A Cov(\boldsymbol{x,y})\boldsymbol B’$​ ​​

最小二乘估计的性质

最小二乘估计 $\boldsymbol{\hat\beta}=(\boldsymbol{X’X})^{-1}\boldsymbol{X’y}$​ 那么$\boldsymbol{\hat\beta}$​ 满足:

  • $E(\boldsymbol{\hat\beta})=\boldsymbol{\beta}$​, 即$\boldsymbol{\hat\beta}$是$\boldsymbol \beta$ 的无偏估计
  • $Var(\boldsymbol{\hat\beta})=\sigma^2(\boldsymbol{X’X})^{-1}$

证明1:计算$E(\boldsymbol {\hat\beta})$​

证明2:计算$Var(\boldsymbol{\hat\beta})$​​

最小二乘估计$\boldsymbol {\hat\beta}$与残差$\boldsymbol e$ 的关系

最小二乘估计$\boldsymbol \beta$与残差$\boldsymbol e$ 线性不相关,即

之前我们说到,最小二乘估计$\boldsymbol {\hat\beta}$与残差$\boldsymbol e$​​ 在数学层面是垂直的。那么反映在统计中,就是线性无关的。也就是他们两的协方差等于0

说明:特别地,在正态分布的假定下,最小二乘估计$\boldsymbol{\hat\beta}$​与残差$\boldsymbol e$​ 独立。基于此,最小二乘估计$\boldsymbol {\hat\beta}$​ 与残差平方和 $SS_E=\boldsymbol{e’e}$独立

证明:

根据上面所说的协方差的性质,又知道帽子矩阵$\boldsymbol H = \boldsymbol {X(X’X)^{-1}X’}$​​ ,以及$\text{Cov}(\boldsymbol{y,y})=\sigma^2$​,原式可化简为:

因为 $(\boldsymbol{X’X})^{-1}=\boldsymbol X^{-1}{\boldsymbol X’}^{-1}$, 所以:$\boldsymbol{I}_n-\boldsymbol{X(X’X)^{-1}X’}=0$

因此$\text{Cov}=0$​ ,得证

中心化和标准化

中心化

矩阵知识补充

假定$\boldsymbol A$ 是$m\times m$ 可逆矩阵,$\boldsymbol B$是 $m\times n$矩阵,$\boldsymbol C$ 是$n\times m$ 矩阵,$\boldsymbol D$是$n\times n$ 矩阵。如果$\boldsymbol D-\boldsymbol{CA^{-1}B}$ 是$n\times n$ 可逆矩阵,那么:

其中,

中心化步骤

所谓中心化,就是把矩阵的中心拉到0 ,我们用$x_{ij}^,y_i^,\boldsymbol X^*$ 来表示中心化后的数据:

其中,$\boldsymbol xj^*=(x{1j}^,\cdots,x_{nj}^)’$

中心化前后的关系

标准化前,原数据集为:

因为根据模型,$\boldsymbol X$​的第一列都是1,所以在上面做一个拼接


最小二乘估计为:

其中 $\boldsymbol A_o=(\boldsymbol X_o’\boldsymbol X_o-n^{-1}\boldsymbol X_o’\boldsymbol 1_n\boldsymbol 1_n’\boldsymbol X_o)^{-1}$


对于中心化的数据,我们有相似的:

其中 $\boldsymbol A_c=(\boldsymbol X_c’\boldsymbol X_c-n^{-1}\boldsymbol X_c’\boldsymbol 1_n\boldsymbol 1_n’\boldsymbol X_c)^{-1}$​​


中心化的因变量与为中心化的因变量之间的关系:

其中 $\boldsymbol H_{1n} = \boldsymbol 1_n(\boldsymbol 1_n’\boldsymbol1_n)^{-1}\boldsymbol1_n’$​是对称幂等矩阵, 即一个$\boldsymbol 1_n$​张成的帽子矩阵

中心化的自变量与未中心化的自变量之间的关系:

而且 $\boldsymbol1n$​向量和它张成的空间的补空间$(\boldsymbol I_n-\boldsymbol H{1n})$​​ 是垂直的,可以有如下证明


然后我们要找$\boldsymbol A_c$和$\boldsymbol A_o$的关系

因为前面的$(\boldsymbol In-\boldsymbol H{1n})$是幂等且对称的矩阵

后面 $(\boldsymbol Xo’(\boldsymbol I_n-\boldsymbol H{1n})\boldsymbol Xo)^{-1} = \boldsymbol A_0$中有$1_n’(\boldsymbol I_n-\boldsymbol H{1n})$​ 因此直接等于0

因此:


已知经验回归方程为:

我们把中心化的数据用到最小二乘估计模型中,即估算回归常数回归系数

估计 $\hat\beta_{\text{c,intercept}}$​​

对于回归常数,我们代入数据

我们发现,括号中的后两项都有$\boldsymbol 1n’\boldsymbol X_c’$ ,也就是 $\boldsymbol 1_n’(\boldsymbol I_n-\boldsymbol H{1n})\boldsymbol X_o$ .我们刚刚证明了这是垂直的,乘积为0

因此:

估计$\hat\beta_{\text{c,slope}}$

因为$\boldsymbol 1n$ 是 竖向量,因此 $\boldsymbol1_n’\boldsymbol1_n$ 是一个常数,为 $\frac{1}{n}$因此,我们有 $\boldsymbol H{1n} = \boldsymbol 1_n(\boldsymbol 1_n’\boldsymbol1_n)^{-1}\boldsymbol1_n’ =\frac{1}{n}\boldsymbol (\boldsymbol 1_n\boldsymbol 1_n’) $​

因此

采用了中心化的数据得到的经验回归方程为:

也就是说,$\beta_1,\beta_2\cdots,\beta_p$​的估计是不会变的

标准化

步骤

其中,$L_{jj}$是自变量 $x_j$ 的离差平方和,即:

而$L_{yy}$是因变量y的离差平方和,即

进而我们可以定义向量$\boldsymbol y^{**}$和矩阵$\boldsymbol X_s$

我们从$x{ij}^*$的定义可以知道,其实就是中心化的$x{ij}$ ,因此$\boldsymbol X_s$可以被写为:

其中,$\boldsymbol L=diag{\frac{1}{\sqrt{L{11}}},\cdots,\frac{1}{\sqrt{L{pp}}}}$​

参数估计

标准化后的最小二重估计为:

回归系数为:

那么$\boldsymbol{\hat\beta}{\text{s,slope}} $ 和 $\boldsymbol{\hat\beta}{\text{c,slope}} $ 的关系又如何呢?我们先把$\boldsymbol{\hat\beta}_{\text{c,slope}} $化简成 $\boldsymbol X_c$的表达式

注意: $\boldsymbol {\hat\beta_{\text{c,slope}}} $ 还不是最终形态,我们可以这样来化简:

因为上面证过了,$\boldsymbol A_c$展开后后面一项等于0,因此:

因此:

其中每一个分量为:

显著性检验

概述

我们做了这么多参数估计,现在我们进一步判断因变量y和自变量$x_1,x_2\cdots,x_p$ 之间是否存在显著的线性关系。

因此,我们可以采用F检验和t检验这两种统计检验方法:

  • F检验: 用于检验回归方程的显著性
  • t检验:用于检验回归系数的显著性

我们之前学过,在一元线性回归模型中,F检验(研究方差分析)和t检验(枢轴量法)、相关系数这三类检验是等价的

在多元线性回归模型中,F检验和t检验就不等价了。而且在多元线性回归中,两个变量之间的相关性是很难定义的,因为会受到其他变量的影响

F检验

F检验是检验回归方程的显著性。对多元线性回归方程的显著性检验是要看自变量 $x_1,x_2\cdots,x_p$ 从整体上对因变量y是否有明显的影响

原假设为

备择假设为:

如果$H_0$ 为真,则表明因变量y与$x_1,x_2\cdots,x_p$ 之间的关系用线性回归模型来刻画是不合适的

检验过程

离差平方和:

我们记为

拟合值: $\hat y_i = \boldsymbol x_i’\boldsymbol {\hat\beta}$​

偏差: $e_i = y_i-\hat y_i$

t检验

置信区间与预测

-------------本文结束,感谢您的阅读-------------