线性回归的背景
在实际问题中,感兴趣的变量y与易于获得的变量x之间存在紧密关联,但又不由变量x而唯一确定的,这种关系通常称为统计关系
若变量y与x间有统计关系,那么通常称y为因变量或者响应变量,x为自变量或者解释变量,这里x在机器学习方法中也会被称为特征。
在给定x的取值之后,y的取值是无法唯一确定的。于是,我们可以将y认为是一个随机变量,并需要通过概率分布来对其进行描述,而我们常常关心的是这个概率分布的数字特征,如期望和方差。
在给定x的时候,称y的条件数学期望为 y 关于 x 的(均值)回归函数,即:
注意到,$f(x)$ 不仅是 x 的一个确定性的函数,并且从平均意义上刻画了变量y与x间统计关系的规律
而如何确定这个确定性的函数f是回归问题中最为核心的问题。
- 线性回归模型可看作将这个函数f 取为x的一个线性函数模式, 如 $f(x)=\beta_0+\beta_1 x$
- 神经网络模型可看作将这个函数f 取为x的一个非线性函数的形式,如 $f(x)=\max(0,\beta_0+\beta_1x)$ (Relu函数)
- 深度学习模型可理解为这个函数f 取为x的多个非线性函数的复合形式。
一元线性回归
概述
模型版
一元回归模型为:
其中,$\beta_0,\beta_1$ 为两个未知参数,常称为回归系数,而$\varepsilon$ 是随机误差。
一元回归模型与数据模型$y=\beta_0+\beta_1x$ 在理解上是不同的,主要的差异在于是否引入了随机误差项$\varepsilon$ :
- 在数学模型中,两个变量之间的关系是确定性的
- 在统计模型中,两个变量之间的关系是不确定的
那么,在一元线性回归模型中,确定性的部分是$\beta_0+\beta_1x$, 随机性的部分为$\varepsilon$
随机误差项用来概括由于人们认识以及其他客观原因的局限而没有考虑的种种偶然因素,一般,随机误差$\epsilon$ 没有办法被观测,但通常假定$\varepsilon$ 满足:
其中,$E(\varepsilon)$ 表示$\varepsilon$ 的数学期望设其为0是为了避免参数不可识别,$Var(\varepsilon)$表示$\varepsilon$的方差
那么因为$\varepsilon$是一个随机变量,所以$y=\beta_0+\beta_1 x+\varepsilon$ 也是随机变量,那么关于x求条件期望,即:
注意到$E(y|x)$是关于x的一个函数,表示用x的信息刻画因变量y,作为y的”预测“,我们称$E(y|x)=\beta_0+\beta_1x$为回归方程。
数据版
一般假定我们观测到的数据${(xi,y_i)}{i=1}^n$ 符合线性回归模型及其假设,即:
同时假定n组数据是独立观测的,即$\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n$是独立同分布的随机变量.
所以,$y_1,y_2\cdots,y_n$ 的期望与方差分别为:
这表明,随机变量$y_1,y_2\cdots,y_n$ 服从不同的分布,方差相等,但是期望不等,且相互独立
模型版和数据版的差别就是,前者强调的是模型,后者侧重的是数据
任务:预测和参数估计
首先我们来说说回归的最常见的任务之一就是通过n组样本观测值$(x_i,y_i),i=1,2\cdots,n$ 对一个新的个体进行预测。具体来说,如果$x_0$ 已知,那么 $\beta_0+\beta_1x_0$ 是$y_0$的一个合理的预测值
现在问题来了,这个方程里面的两个参数$\beta_0$和$\beta_1$怎么估呢?我们需要通过观测到的数据$(x_i,y_i),i=1,\cdots,n$进行估计。一般我们会用$\hat\beta_0$ 和 $\hat\beta_1$ 分别表示$\beta_0$和$\beta_1$ 的估计值。那么,y关于x的一元线性经验回归方程为:
称其图形为经验回归直线,其中,$\hat\beta_0$ 表示经验回归直线的截距,$\hat\beta_1$表示经验回归直线的斜率
给定$x=x_0$后,称:
为回归值。又是也称为拟合值或者预测值。
最小二乘估计
在概率论中我们讲了估计的三种思想:似然、替换和拟合
拟合的方法就是配直线,也就是我们现在要讲的最小二乘
对于每一个样本观测值$(x_i,y_i)$ ,定义偏差为观测值$y_i$ 与其回归至$E(y_i|x_i)$的差异为:
偏差平方和为:
用图形来表示,就如下图:
我们称通过最小化偏差平方和$Q(\beta_0,\beta_1)$而得到的参数估计方法,为最小二乘估计 ,下面给出其数学定义:
我们发现这其实就是一个求极值的问题,因为$Q$ 是关于$\hat\beta_0,\hat\beta_1$的非负二次函数,所以其最小值总是存在的。
那么要求极值,我们首先要求一阶导数,即:
整理得到正规方程:
于是,$\beta_0,\beta_1$的最小二乘估计为:
其中,
分别为$x_1,x_2\cdots,x_n$ 和 $y_1,y_2\cdots,y_n$ 的样本均值
我们可以用跟简单的记号来表示$\hat\beta_0$和$\hat\beta_1$
于是,最小二乘估计简写为:
但是,我们是根据一阶导数求出的$\hat\beta$ ,这实际上是 $Q(\beta_0,\beta_1)$的稳定点, 但是是否为最小值点,仍需要根据其二阶导在$(\hat\beta_0,\hat\beta_1)$上表现来判断是否为最小值点:
从上式可以推得:$Q(\beta_0,\beta_1)$的二阶偏导为:
我们提取出4n,发现剩下的式子就是$l_{xx}$,因此:
因此,二阶导大于0,说明Q在$\hat\beta_0,\hat\beta_1$处取最小值
最大似然估计
我们首先来回顾一下最大似然估计:
最大似然估计是依赖于总体的概率函数$f(x;\theta)$以及样本所提供的信息来求未知参数的估计。当总体X为连续随机变量时,其密度函数为:
假定总体X的一个独立同分布的样本为$x_1,x_2\cdots,x_n$ 参数的似然函数为:
最大似然估计指的是在参数空间 $\Theta$ 中选取随机样本$(X_1,X_2,\cdots,X_n)$落在点$(x_1,x_2\cdots,x_n)$附近最大概率的$\hat\theta$ 为未知参数$\theta$的估计值,即$\hat\theta$ 需要满足:
分布假定
那么要做极大似然估计的话,我们首先要假定分布,有了密度函数才能得到似然函数。
在一元线性回归模型中,最常见的假定为$\varepsilon$ 服从正态分布,即
从数据角度看,由于 $\varepsilon_1,\varepsilon_2\cdots,\varepsilon_n$ 都是与$\varepsilon$独立同分布的随机变量,因而有:
在 $\varepsilon_i$ 服从正态分布的假定下,$y_i$ 也服从正态分布 ,即
因此,我们可以得到$y_i$的密度函数:
因为 $y_1,y_2\cdots,y_n$的密度函数是和i相关的,各不相同,我们用 $f_i$ 代替 $f(y_i)$ 更为合适
那么,似然函数为:
于是,对数似然函数为:
易知 L 的最大值点与 $\ln L$ 的最大值点是相同的。我们发现:
即:回归系数$\beta_0,\beta_1$的最大似然估计和最小二乘估计的形式是一致的。
求解$\sigma^2$
我们可以对$\ln L(\beta_0,\beta_1,\sigma^2)$关于$\sigma^2$求导,并令一阶导数为0,得到:
那么,$\sigma^2$ 的最大似然估计为:
$\hat\sigma_{ML}^2$是$\sigma^2$ 的有偏估计。因为极大似然估计就是有偏的。这里我们有两个参数,因此要除以 n-2。
在实际应用中,更为常用的是$\sigma^2$ 的无偏估计,即:
最大似然估计是在 $\varepsilon_i\sim N(0,\sigma^2)$ 的正态分布假设下求得的,而最小二乘估计则估计则对分布假设没有要求。所以说,极大似然估计也可以看成是最小二乘估计,只是多了一个条件。因此极大似然估计相对于最小二乘估计更为稳健
$y_1,y_2,\cdots,y_n$ 是独立的正态分布样本,而不是同分布的,但这并不妨碍最大似然方法去求解。因此极大似然估计只要定义出似然函数即可,不要求样本同分布。
定理1
如果$y_1,y_2\cdots,y_n$ 是相互独立的且$y_i$是正态分布随机变量,即
那么
$\beta_0,\beta_1$ 均服从正态分布
$\beta_0,\beta_1$两者的协方差如下:
从这个公式我们可以得出:只有当$\overline x=0$ 的时候,两者才不相关,要做到这一点需要对样本数据进行中心化,否则我们得到的$\beta_0$ 和 $\beta_1$ 都是相关的。
证明
步骤1:用$yi$线性表出$\beta{0},\beta_1$
- 首先我们可以将 $\hat\beta_1$写成 $y_i$ 随机变量的一个加权求和的形式。(因为x是确定的)
第二个等式中的后者为0,因为 $\sum{i=1}^n(x_i-\overline x)=\sum{i=1}^n x_i-n\overline x=0$
- 我们可以将$\hat\beta_0$写为以下的形式:
因此$\hat\beta_0$和$\hat\beta_1$ 均可以看做是 $y_1,y_2\cdots,y_n$的线性组合。已知$y_1,y_2\cdots,y_n$是相互独立的正态随机变量,那么 $\hat\beta_0$和$\hat\beta_1$均服从正态分布
步骤2:考虑期望和方差
接下来,我们需要考虑这两个估计的均值与方差,从而进一步确定分布
- 一方面,考虑 $\hat\beta_1$ 的期望与方差,即:
我们可以让其减去$\sum{i=1}^n\frac{\overline x(x_i-\overline x)}{l{xx}}\beta_1$ 因为这个式子为0
将后两项展开,可以得到一个平方项
前面一项,因为$\sum{i=1}^n(x_i-\overline x)=\sum{i=1}^n x_i-n\overline x=0$ ,因此
对于方差,就更为简单了:
- 另一方面,考虑 $\hat\beta_0$ 的期望与方差,即
方差:
第三步:求协方差
因为 $y_1,y_2\cdots,y_n$相互独立,所以我们把第一步求出的$\beta_0,\beta_1$的式子带入,得到:
我们可以将它们看做是 $y_i$的线性组合之间的协方差。因为当$y_i$ 之间不相等,就说明他们是独立的,两个独立的协方差之间是0,因此我们只要看做是 $y_i,y_i$即可.
那么,$y_i$和$y_i$的协方差就是$y_i$的方差,其方差为$\sigma^2$ ,前面$\sum$可以都看成是系数,提取出来即可,最后化简:
第四步:给出推论
- $\hat\beta_0,\hat\beta_1$分别是$\beta_0,\beta_1$ 的无偏估计,而且这个无偏估计并不需要服从正态分布。
- 除 $\overline x=0$ 外,$\hat\beta_0$与$\hat\beta_1$是相关的,只有当数据中心化以后才是不相关的
为了提高$\hat\beta0,\hat\beta_1$的估计精度(即降低它们的方差)就要求样本量n增加,这样会使得$l{xx}$增大,即要求 $x_1,\cdots,x_n$比较分散。这样会使得方差变小—数据波动更小
tips
- 我提出了一个假设之后,在建模中就要以这个假设为默认条件
- 在建模的过程中,提出了很多假设,我们要用数据去验证是否符合这些假设
那么在这个线性回归模型中,我们提出了什么假设呢?
- 最核心的假定为:线性性。即x是会影响y的。否则,如果x不在式子里,我们能用样本均值来预测y了。那么加了x之后,预测效果会不会提升呢?肯定是会的。因此,我们首先要检验出:x是否会对y产生影响。如果没有,我们干嘛用x去预测y呢?
回归方程的显著性检验
首先我们要来考虑$\beta_1$是否为0,若真的为0,那么其实$y$和 $x$之间是没有必然联系的,但是,我们估出来的$\hat\beta_1$可能不是0,那么这时候怎么进行判断呢?那么在这种情况下,对一个参数的估计有点类似于假设检验的问题。 检验问题为:
如果我们的得到的结论是拒绝$H_0$ ,那么我们认为回归方程是显著的。
接下来我们会介绍三种估计方法
F检验
定义
我们用方差分析的思想:
- 令回归值为 $\hat y_i = \hat\beta_0+\hat\beta_1 x_i$ 残差:$e_i = y_i-\hat y_i$
- 偏差平方和为 $SST = \sum{i=1}^n(yi-\overline y)^2 = l{yy}$ ,其中 $\overline y = \frac{1}{n}\sum_{i=1}^n y_i$
- 引起$yi$ 不同的原因主要是因为$H_0$ 可能不真,即$\beta_1\neq 0$ ,即在每一个x的观测处的回归值都不相同。因此我们可以定义回归平方和为:$SS_R = \sum{i=1}^n (\hat y_i-\overline y)^2$ . 也就是落在直线上的点与均值的平方和
- 引起$yi$ 不同还可能因为误差,因此在得到回归值之后,y的观测值与回归值之间还有差异。因此可以定义残差平方和为:$SS_E = \sum{i=1}^n (y_i-\hat y_i)^2$
那么,我们可以在一元线性回归场合下的平方和分解式:
我们发现,其交叉项是0
最后这个式子就代表: $SS_T = SS_R+SS_E$
定理2
设 $y_i = \beta_0+\beta_1x_i+\varepsilon_i$
其中, $\varepsilon_i,\cdots,\varepsilon_n$ 相互独立,且:
我们有:
证明
- 我们首先来关注$SS_R$
它可以看做是有线性回归模型下的估计($\hat y$) 与无线性回归模型下的估计($\overline y$)的差的平方和
在最小二乘估计中我们得到了 $\hat\beta_0 = \overline y -\hat\beta_1\overline x $,从中可以获得$\beta$关于 $\overline y$ 的式子
然后我们对 $SS_R$求期望,这里面$\hat \beta_1$是随机变量,这里假定x是固定的变量。运用 $Var(x)=(E(X))^2-E(X^2)$ 可得
又因为在定理1中证明了$E(\hat\beta_1)$是无偏的,$E(\hat\beta_1)=\beta_1$
因此
- 然后来关注$SS_E$
我们可以把 $\sum_{i=1}^nE(\beta_0-\hat\beta_0)^2$ 看做是n倍的$Var(\hat\beta_0)$ 因为 $\hat\beta_0$是$\beta$的无偏估计,因此$\beta$可以看做是$E(\beta_0)$
同理,$\sum{i=1}^nE(\beta_1-\hat\beta_1)^2x_i^2=Var(\hat\beta_1)\sum{i=1}^n x_i^2$
$2E(\sum_{i=1}^n(\beta_0-\hat\beta_0)(\beta_1-\hat\beta_1))=2nE(\beta_0-\hat\beta_0)(\beta_1-\hat\beta_1) = 2nCov(\hat\beta_1,\hat\beta_0)$
又因为$\beta_0,\varepsilon_i$是独立的,因此:$E(\beta_0\varepsilon_i)=E(\beta_0)E(\varepsilon_i) = 0$
因此,
在这个式子中,我们已知的是$nVar(\hat\beta_0),Var(\hat\beta_1),Var(\varepsilon_i),2nCov(\hat\beta_1,\hat\beta_0)$ 因此我们现在要算 $E(\hat\beta_0\varepsilon_i),E(\hat\beta_1\varepsilon_i)$
首先我们要把$\hat\beta_0,\hat\beta_1$ 写成是$y_1,\cdots,y_n$的线性组合
- 对于 $E(\hat\beta_0\varepsilon_i)$,我们知道$y_i$之间是独立的
因此当 $j\neq i$ 的时候,期望可以写成 $E(\varepsilon_i)\cdot E(\cdots) = 0$,因此,只有当 $i=j$ 的时候才需要被留下:
- 对于$E(\hat\beta_1\varepsilon_i)$,同样用类似的思路证明:
因此:
已知 $l{xx}=\sum{i=1}^n(xi-\overline x)^2 = \sum{i=1}^n xi^2-2\sum{i=1}^nxi\overline x+n(\overline x)^2=\sum{i=1}^n x_i^2-n\overline x$. 因此原式 $ = \sigma^2$
综上,
定理3
设 $y_1,\cdots,y_n$ 相互独立,且:
则有:
- $SS_E/\sigma^2\sim\mathcal X^2(n-2)$
- 若$H_0$ 成立,则有 $SS_R/\sigma^2\sim \mathcal X^2(1)$
- $SS_R$与 $SS_E$,$\overline y$ 独立
这三点在回归里面是非常核心的,其重要性在于其构造出了F检验。
证明-1
首先,我们需要构造一个正交矩阵A,形如:
根据正交矩阵的性质$AA’=I$, 则A需要满足:
第一个条件是说,如果i和j不相等的话,那么第i行和第j行对应元素的乘积的和是要等于0的
第二个条件是:前面n-2行与倒数第二行的对应元素的乘积的和要等于0,因为不再对角线上
第三个条件是:前面n-2行与最后一行的对应元素的乘积的和要等于0,因为也不再对角线上
第四个条件是: 对角线上要满足都是1,因此每一行各个元素的平方和为1
在这个矩阵中,前面 n-2行是不确定的,因此有 n(n-2)的未知数。然后第一个条件有$\pmatrix{n-2\2}$个方程,后面三个条件每一个都有$n-2$个方程,因此一共有 $\frac{(n-2)(n-3)}{2}$个方程。
因此,只要 $n\geq 3$ ,未知参数个数不少于方程个数,因此,正交矩阵A一定是存在的
接下来,我们令 $z=Ay$, 其中 $z=(z_1,z_2\cdots,z_n)’$ 满足
第二个式子是因为:$l{xy} = \sum{i=1}^n x_iy_i-n\overline x\cdot \overline y$
又: $\sum{i=1}^n (x_i-\overline x)y_i = \sum{i=1}^nxiy_i-\sum{i=1}^n yi\overline x= \sum{i=1}^n x_iy_i-n\overline y\cdot\overline x$
两者是等价的
我们看到z也是正态随机变量的线性组合,因此可以很方便的记录其均值和方差:
$\sumja{ij}=0$,因此 第一个式子等于0
由上面的结论,可以得出以下结论:
- 我们知道Z是服从正态分布的,又z的方差为对角矩阵,是不存在协方差的。因此,$z_1,z_2\cdots,z_n$是相互独立的。
- 前n-2个分量$z_1,z_2\cdots,z_n$是独立同分布的,且分布为$N(0,\sigma^2)$
- $z{n-1}$的分布为$N(\sqrt{l{xx}}\beta_1,\sigma^2 )$
- $z_n$ 的分布为$N(\sqrt n(\beta_0+\beta_1\overline x),\sigma^2)$
最后,我们要用$z$去表示 $SS_T,SS_R,SS_E$
然后我们可以整理为:
即 $SST = \sum{i=1}^{n-2}z_i^2+SS_R$
因为 $SS_T = SS_R+SS_E$,所以 $SS_E$的分布就得到了:是一些列正态随机变量的平方和,是一个卡方分布
证明-2
若$H_0$成立,则$\beta_1= 0$, 可以得到:
所以,变换得到:
证明-3
因为$SSE$与前 $n-2$个$z_i$有关,$SS_R$仅与 $z{n-1}$有关,$\overline y$仅与$z_n$有关,因此$SS_R$和 $SS_E,\overline y$相互独立
因为$\hat\beta_1$ 仅与$SS_R$有关,所以$\hat\beta_1$与$SS_E,\overline y$相互独立
检验统计量
现在我们来进行假设检验:
构造形如
的检验统计量来检验。那么,在$\beta_1 = 0$时,$F\sim F(1,n-2)$,对于给定的显著性水平$\alpha$,其拒绝域为:
即大于临界值,SSR就越大,说明$\beta_1$是起作用的,我们就拒绝原假设
这就是F检验
t检验
如果说F检验的方法的内核是方差分析,那么t检验的方法的内核就是参数估计了——我通过去找到点估计,找到枢轴量,构造检验统计量然后去做检验。
检验统计量
相关系数的检验
概述
现在我们来聊第三个问题,一个模型中$\beta_1$ 如果不起作用的话,就说明x,y之间是没有线性关系的。
那么,由于一元线性回归方差可以反映出两个随机变量x与y间的相关关系时,它的显著性检验还可以通过对二维总体相关系数$\rho$的检验进行。
假设为:
如果样本相关系数很小,很有理由认为总体均值为0,接受原假设,反之,我们拒绝原假设。
我们将样本相关系数作为检验统计量:
下面我们用具体的图来理解样本相关系数的大小:
对于a、b两张图,直线是确定的,所有点都在直线上面。因此我们算出来的样本相关系数的绝对值算出来一定是1
对于c,我们发现这个点的分布基本是随机地,散乱的,此时其相关系数接近于0
对于d,我们发现点复合某个函数,并不是线性的,但是其相关系数也不等于0
对于e、f,状态是比较理想的。
检验统计量
当$H_0$为真时,$|r|$应该比较小;当 $|r|$ 比较大的时候,应该拒绝原假设
因此,拒绝域为${|r|\geq c}$ ,其中,临界值c可以由$H_0$成立时的样本相关系数的分布确定,该分布与自由度$n-2$有关。
对给定的显著性水平$\alpha$ ,由$P(W) = P(|r|\geq c)=\alpha$ 可知,临界值c应该是$H0:\rho = 0$成立下r的分布的$1-\alpha/2$ 分位数,故我们记为:$c = r{1-\alpha/2}(n-2)$
那么,这个临界值的式子给出了,怎么获得呢? 因此我们要考虑三个检验之间的关系
三种检验之间的关系
t检验与F检验统计量的关系
其中,第三个等式成立是因为回归平方和$SS_R$与$\hat\beta_1$之间存在如下关系:
因此,实际上F检验和t检验是等价的。
F检验统计量与r的关系
分子分母同除以 $SS_E/(n-2)$可以得到:
这表明了 $|r|$ 是 $F0$ 的严格单调增函数,因此可以从F分布的$1-\alpha$ 分位数 $F{1-\alpha}(1,n-2)$ 得到相关系数检验 所需要确定的临界值 $r_{1-\alpha/2}(n-2)$, 即
因此,$r^2$ 会常常作为回归分析中一项重要的指标。我们定义样本决定系数为回归平方和与总偏差平方和之比,即:
样本决定系数$r^2$是一个回归直线与样本观测值拟合优度的相对指标,反应因变量的波动中能用自变量解释的比例。$r^2$ 的取值在0到1之前。 $r^2$越接近1,拟合度越好
通常来说我们更看中$R^2$ 其定义是 $\frac{SS_R}{SS_T}$ ,在一元线性回归中,刚好其等于样本方差的平方即 $R^2 =r^2$
说明
- 三种检验方法在一元线性回归模型下是等价的
- 但在多元线性回归场合,经推广F检验仍然可用,另两个检验就无法使用了
- 如果无法拒绝原假设,则可以认为回归方程不是显著的,导致这种情况可能有如下几种原因
- 误差与正态假设严重偏离
- Y与X无关
- Y与X虽然相关,但不是线性关系
- Y与X以外的因素有更密切的关系
估计与预测
之前我们所说的都是建模,然后确定模型是否有效。现在我们终于要来做预测了。那么,我们对什么来做预测呢?——随机变量。
当$x=x_0$时,我们关心的是 $y_0 = \beta_0+\beta_1x_0+\epsilon_0$
注意到,$y_0$是本身一个随机变量。 对于一个随机变量,在掌握了单个数值信息的情况下是很难刻画y的分布的,因此我们可以构造一个区间,使得$y_0$ 落在区间的概率为$1-\alpha$,即确定一个常数$\var$ 使得$P(|y_0-\hat y_0|\leq \var) = 1-\alpha$ ,称区间$[\hat y_0-\var,\hat y_0+\var]$ 为$y_0$的概率为$1-\alpha$ 的预测区间,这是一个预测问题
关于$E(y_0)$的估计
点估计
我们只能通过期望。在$x=x_0$时,我们需要考虑$E(y_0) = \beta_0+\beta_1x_0$ 一个直观的估计为:
通常记为$\hat y_0$ , 表示在 $x=x_0$ 时响应变量的估计值
定理 4
如果 $y_1,y_2\cdots,y_n$ 是相互独立的且$y_i$ 是正态分布随机变量,即 $y_i\sim N(\beta_0+\beta_1x_i,\sigma^2)$,那么,对给定的$x_0$
证明
根据定理1可得:
因此在给定$x_0$的时候,$\hat y_0$ 也是 $y_1\cdots,y_n$的线性组合,因此$\hat y_0$ 也服从正态分布。其均值和方差为:
区间估计
已知$\hat y_0$的分布为
现在要构造枢轴量,其中,$\sigma^2$ 可以用其估计代替
于是,我们有:
因此,$E(y_0)$的置信水平为$1-\alpha$的置信区间为:
其中,
关于$y_0 $ 的预测
点预测
在预测$y_0$的时候,我们如果考虑点预测,那么通常我们还是取这个随机变量的均值,于是$y_0$的点预测也是$\hat y_0$
但是,由于$y_0$是一个连续随机变量,恰好取到一个点的概率为0,因此在实际应用中,对$y_0$进行区间预测更为合理。
区间预测
事实上 $y_0 = E(y_0)+\varepsilon_0$ ,因为通常假定$\varepsilon_0\sim N(0,\sigma^2)$ ,所以$y_0$的最有可能的取值仍然是$\hat y_0$
因此,我们可以使用一个以$\hat y_0$为中心的区间:
作为$y_0$的取值范围,如何确定$\var$的值是需要进一步讨论的。
和$E(y_0)$的去测过程一样,我们要构造一个枢轴量
一方面,我们知道:
其点预测我们之前已经推出:
又因为 $y_0$ 与$\hat y_0$ 独立,所以:
另一方面,因为 ${(n-2)\hat\sigma^2}/{\sigma^2}\sim \mathcal{X^2}(n-2)$,而且$y_0,\hat y_0,\hat\sigma^2$相互独立,所以有:
因此,预测区间为:
其中,$\var$ 为:
我们发现,估计区间中的$\var$和预测区间中的$\var$ 是不一样的,预测区间中的$\var$会更加宽一点。因此我们发现,当预测的时候,波动更大,因为我们会引入新样本。
观察上图,我们发现预测区间呈现一个喇叭口的形状,越接近$\overline x$ 越窄,越两变越宽。说明数据波动的越大,会导致$\sigma$的估计越大,最终导致$\var$越大。
此外我们还要知道,这个区间是和样本量有关系的,如果样本量越大,$n$越大,因此区间会越窄
此外,如果我们要预测的新样本和训练集的均值离得非常远,那么预测区间就越大,预测效果就越差。在一元线性回归中,表现为离均值$\overline x$越远预测效果越差。