概率论第六章 参数估计
点估计的概念
首先我们给出点估计的定义:
设 $x_1,x_2\cdots,x_n$ 是来自总体的一个样本,用于估计未知参数 $\theta$ 的统计量 $\hat\theta =\hat\theta(x_1,x_2\cdots,x_n)$ 称为$\theta$ 的估计量,或称为 $\theta$ 的点估计。
在这里,如何构造统计量$\hat\theta$ 并没有明确的规定。只要满足一定的合理性(一般指无偏性)即可。
那么,什么是无偏估计? 下面给出其定义
设 $\hat\theta(x_1.x_2\cdots,x_n)$ 是$\theta$ 的一个估计,$\theta$ 的参数空间为$\Theta$ ,若对任意的$\theta\in\Theta$ ,有:
则称$\hat\theta$是$\theta$的无偏估计,否则就称其为有偏估计。
无偏性也可以改写为 $E_\theta(\hat\theta-\theta)= 0$ , 这表示无偏估计没有系统偏差。
当我们使用 $\hat\theta$ 估计 $\theta$ 时,由于样本的随机性,$\theta$ 与 $\hat\theta$ 总是有偏差的。无偏性表示,把这些偏差平均起来其值为0.但是若估计不具有无偏性,则无论使用多少次,其平均也会与参数真值也有一定的距离,这个距离就是系统误差。
结论
- 对任意总体而言,样本均值 是总体均值的无偏估计。当总体k阶矩存在时,样本k阶原点矩$a_k$ 是总体k阶矩原点矩$\mu_k$ 的无偏估计。但是对k阶中心距则不一样,比如说样本方差 $s_n^2$ 就不是总体方差 $\sigma^2$ 的无偏估计。因为$E(s_n^2) = \frac{n-1}{n}\sigma^2$ , 其中 $E(s_n^2)$是经验分布函数的方差。
但是我们可以说 $E(sn^2)$是 $\sigma^2$的渐近无偏。 因为满足:$\lim\limits{n\rightarrow \infty}E(\hat\theta_n)=0$
- 怎么判断哪一个无偏估计更加有效呢?可以使用求 $Var(\hat\theta)$ ,谁的方差小,谁更有效
经典学派的点估计方法一共由三种:1. 替换(也就是接下来我们要讲的矩估计) 2. 拟态 3. 似然
矩估计及相合性
矩估计是点估计的一种特殊情况。其本质就是用经验分布函数去替换总体分布,其理论基础就是格利文科定理。统计思想就是替换原理。
替换原理常指用样本矩去替换总体矩,这里的矩可以使原点矩也可以是中心距;并用样本矩的函数替换相应的总体矩的函数。
根据这个替换原理,在总体分布形式未知的场合也可以对各种参数作出估计。譬如:
- 用样本均值 $\overline x$ 估计总体均值 $E(X)$
- 用样本方差 $s^2$ 来估计总体方差$Var(X)$
- 用事件A出现的频率估计事件A发生的概率。
- 用样本的p分位数估计总体的p分位数,特别的,用样本中位数估计总体中位数。
概率函数已知时未知参数的矩估计
现在我们给出矩估计的使用方法。设总体具有已知的概率函数 $p(x;\theta_1,\theta_2,\cdots,\theta_k),(\theta_1,\theta_2,\cdots,\theta_k)\in \Theta$ 是未知参数或参数向量,$x_1,x_2\cdots,x_n$是样本,假定总体的k阶原点矩$\mu_k$ 存在,则对所有的j,有 $0<j<k,\mu_j$ 都存在。
若假设$\theta_1,\theta_2,\cdots,\theta_k$ 能够表示成 $\mu_1,\mu_2,\cdots,\mu_k$ 的函数 $\theta_j=\theta_j(\mu_1,\mu_2,\cdots,u_k)$ ,则可以给出诸 $\theta_j$ 的矩估计
其中 $a1,a_2\cdots,a_k$ 是前k阶样本原点矩,$a_j = \frac{1}{n}\sum{i=1}^n x_i^j$ . 进一步的,如果我们要估计$\theta_1,\theta_2\cdots,\theta_k$的函数 $\hat\eta = g(\theta_1,\theta_2,\cdots,\theta_k)$ 则可以直接得到 $\eta$ 的矩估计为:
有上面的式子可得,当k=1时,我们通常可以由样本均值出发对参数进行估计,当$k=2$时,可以由一阶二阶原点矩出发来估计未知参数。
上面的定义比较抽象,现在我们用几个例子来说一下。
例1
设总体为指数分布,其密度函数为:
其中,$x_1,x_2\cdots,x_n$ 是样本
现在,我们要估计这个分布函数中的参数$\lambda$ ,我们所要做的就是用矩来表示这个$\lambda$.
很显然,对于指数分布来说 ,$E(X) = \frac{1}{\lambda}\Rightarrow \lambda = \frac{1}{E(X)}$ ,就是说可以用一阶原点矩来表示未知参数$\lambda$
因此,我们就可利用矩法,$\hat\theta_j = \theta_j(a_1,a_2,\cdots,a_k)$ 得到,
不过,由于 $Var(X) = 1/\lambda^2 \Rightarrow \lambda = 1/\sqrt{Var(X)}$ 可知,$\lambda$ 的估计也可以取为:
s为样本标准差,这说明矩估计可能是不唯一的,此时通常应该 尽量采用低阶矩 给出未知参数的估计。
例2
设 $x_1,x_2\cdots,x_n$ 是来自均匀分布 $U(a,b)$ 的样本,a与b均是未知参数。怎么用矩估计呢?
这里,我们要用矩来表示a和b,自然想到期望和方差。
不难推出
由此可以得到 a和b的矩估计:
例3
设总体分布列/密度函数如下,$x_1,x_2,\cdots,x_n$ 是样本,试求未知参数的矩估计:
a. $P(X=x)=(x-1)\theta^2(1-\theta)^{x-2},x=2,3\cdots,0<\theta<1$
我们用 $E(X)$去表示$\theta$,这是一个离散的分布列,那么怎么求期望呢? 求和或者求积分
很容易看出,我们要求和的部分可以看做是:
所以
拟合
上面说了点估计还有拟合和似然两种方法,现在我们来讲拟合。最经典的拟合方法就是最小二乘法,也就是配直线的过程。
相合性
点估计是一个统计量,因此它是一个随机变量。在我们有足够的观测值之后,根据格利文科定理,随着样本量的不断增大,经验分布函数逼近真是分不含糊,因此完全可以要求估计量随着样本量的不断增大而逼近参数真值。这就是相合性,以下是定义:
设$\theta\in\Theta$ 为未知参数,$\hat\theta_n = \hat\theta_n(x_1,x_2\cdots,x_n)$是一个估计量,n是样本容量,若对任何一个 $\epsilon > 0$.有:
则称$\hat\theta_n$ 为参数 $\theta$ 的相合估计。
相合性被认为是对估计的一个最基本要求,如果一个估计量,在样本量不断增大时,它都不能把被估参数估计到任意指定的精度。那么这个估计是很值得怀疑的,通常,不满足相合性要求的估计不予考虑。通常称相合性是一个好估计的必要条件。但是,只满足相合性也是不够的。
其实,若把依赖于样本量n的估计量$\hat\theta_n$ 看做是一个随机变量序列,相合性就是$\hat\theta_n$ 依概率收敛到$\theta$ 。基于很多大数定律,其实相合性是很好论证的,只要我们将$\hat\theta_n$写成独立同分布的随机变量求和的形式即可。利用辛钦大数定律,证明其方差存在即可。
定理1
设$\hat\theta_n = \hat\theta_n(x_1,x_2\cdots,x_n)$ 是$\theta$ 的一个估计量,若:
则 $\hat\theta_n$ 是 $\theta$ 的相合估计
当n充分大的时候, 估计值的期望是和真实的值是逼近的,其方差收敛到0。那么我一定能推出这是满足相合性的。换句话说,我只要求其一阶矩和二阶矩即可。
例1
设$x1,x_2\cdots,x_n$ 是来自均匀总体 $U(0,\theta)$ 的样本,证明 $x{(n)}$ 是 $\theta$ 的相合估计。
我们可以由次序统计量的分布,我们知道 $\hat\theta = x_{(n)}$ 的分布密度函数为:
故有:
因此,由上面说的定理1可得,$x_{(n)}$ 是$\theta$ 的相合估计。
定理2
若$\hat\theta{n1},\hat\theta{n2}\cdots,\hat\theta{nk}$ 分别是$\theta_1,\cdots,\theta_k$ 的相合估计,$\eta = g(\theta_1,\theta_2\cdots,\theta_k)$ 是 $\theta_1,\theta_2\cdots,\theta_k$ 的连续函数,则$\hat\eta_n = g(\hat\theta{n1},\hat\theta{n2},\cdots,\hat\theta{nk}) $ 是$\eta$ 的相合估计。
用语言来描述这个定理就是,如果$\eta$能表示成一些参数的连续函数,那么就可以通过函数变换来求出$\eta$的相合估计。说明相合估计对于连续函数具有传递性
例2
刚才说的都是连续的例子,现在我们来说说离散的例子:
a1 | a2 | a3 | |
---|---|---|---|
P | $\theta^2$ | $2\theta(1-\theta)$ | $(1-\theta)^2$ |
n | $n_1$ | $n_2$ | $n_3$ |
频率 | $\frac{n_1}{n}$ | $\frac{n_2}{n}$ | $\frac{n_3}{n}$ |
我们使用矩估计,可以用替换的思想。这里的未知参数是 $\theta$
那么,我们可以从频率出发,可以近似地认为a1发生的频率就等于其$p$ 的值,也就是 $\hat \theta_1 = \sqrt{p_1} = \sqrt{\frac{n_1}{n}}$
注意了,给定的估计一定是要有未知参数的。
同样的想法,我们可以写出不同的关于$\theta$ 的表达式
- $\eta= \theta = 1-\sqrt{p_3} ,\hat\eta_n = \hat\theta_2 = 1-\sqrt{n_3/n}$
$\eta(\theta)=p_1+p_2/2,\hat\eta_n =\hat\theta_3 = (n_1+n_2/2)/n$
由定理2 可得,以上三者都是$\eta$的相合估计
结论
设$x_1,x_2\cdots,x_n$ 是来自正态总体$N(\mu,\sigma^2)$ 的样本序列,则由辛钦大数定律及依概率收敛的性质可得:
- $\overline x$ 是$\mu$ 的相合估计
- $s_n^2$ 是$\sigma^2$ 的相合估计
- $s^2$ 也是$\sigma^2$的相合估计
由此也可以看到参数的相合估计不止一个
另外,有大数定理可以看到,矩估计一般都具有相合性,比如:
- 样本均值是总体均值的相合估计
- 样本标准差是总体标准差的相合估计
- 样本变异系数 $s/\overline x$ 是总体变异系数的相合估计
最大似然估计与EM算法
刚才我们讲了点估计中的矩估计(替换)以及拟合,现在我们来讲讲第三种——似然
最大似然法(Maximum Likelihood,ML)也称为最大概似估计,也叫极大似然估计,是一种具有理论性的点估计法,此方法的基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量
个随机试验如有若干个可能的结果A,B,C,… ,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现的概率P(A)较大。极大似然原理的直观想法我们用下面例子说明。设甲箱中有99个白球,1个黑球;乙箱中有1个白球.99个黑球。现随机取出一箱,再从抽取的一箱中随机取出一球,结果是黑球,这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多,这时我们自然更多地相信这个黑球是取自乙箱的。一般说来,事件A发生的概率与某一未知参数$\theta$ 有关,$\theta$ 取值不同,则事件A发生的概率 $P(A|\theta)$ 也不同,当我们在一次试验中事件A发生了,则认为此时的$\theta$ 值应是 t 的一切可能取值中使$P(A|\theta)$达到最大的那一个, 极大似然估计法就是要选取这样的t值作为参数t的估计值,使所选取的样本在被选的总体中出现的可能性为最大。
似然的核心想法就是以成败论英雄。
首先我们来讲一下什么事似然函数。
其实,似然函数就是这个分布的概率函数 , 只不过是将其看做关于$\theta$的函数,也就是 $P_\theta(x_1,x_2,\cdots,x_n)$.那么对样本而言,就是联合分布列/密度
1.求极大似然函数估计值的一般步骤:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数
(4) 解似然方程 。
2.利用高等数学中求多元函数的极值的方法,有以下极大似然估计法的具体做法:
(1)根据总体的分布,建立似然函数
(2) 当 L 关于 $\theta_1,\theta_2\cdots,\theta_k$ 可微时,(由微积分求极值的原理)可由方程组
定出
称以上方程组为似然方程.
因为 L 与 $\ln L$ 有相同的极大值点,所以 $\hat\theta_i(i=1,2,\cdots,k)$也可由方程组
定出 $\hat\theta_i(i=1,2\cdots,k)$ , 称以上方程组为对数似然方程;$\hat\theta_i(i=1,2\cdots,k)$ 就是所求参数 $ \theta_i(i=1,2\cdots,k)$ 的极大似然估计量。
当总体是离散型的, 将上面的概率密度函数 $f(x,\theta_1,\theta_2\cdots,\theta_k)$ ,换成它的分布律 $P(X=x;\theta_1,\theta_2\cdots,\theta_k)$
例1
$x\sim b(1,\theta)$,样本为 $x_1,x_2\cdots,x_n$,求其极大似然估计量
第一步,我们写出其似然函数,这是一个离散的样本,因此:
第二步,求出其对数似然函数(计算会更方便)
第三步,对其求导,因为要找到 $\hat\theta$ 的最大值,所以导数等于0是必要条件。但是导数等于0不一定代表$L(\theta)$能取最大值(也可能是最小值), 所以,我们可以求二阶导来验证一下,不过一般来说都是最大值
第四步,求解对数似然方程
极大似然估计一般记为MLE
例2
我们继续看这个例子,对于离散的分布。刚才我们仅仅根据一两个条件,就给出了关于$\theta$的矩估计,这让我们不禁感觉是不是没有用上全部的信息,因此我们可以用极大似然估计得到更精确的$\hat\theta$
a1 | a2 | a3 | |
---|---|---|---|
P | $\theta^2$ | $2\theta(1-\theta)$ | $(1-\theta)^2$ |
n | $n_1$ | $n_2$ | $n_3$ |
频率 | $\frac{n_1}{n}$ | $\frac{n_2}{n}$ | $\frac{n_3}{n}$ |
我们也是一样的做法。首先给出其似然函数$L(\theta)$
然后,对其求对数似然函数:
然后对$\theta$求导,令导数为0:
解之,得到:
最后我们要验证一下
所以说$\hat\theta$ 是极大值点。
例3
虽然说求导函数是求最大似然估计最常用的方法,但并不是在所有场合都是有效的,比如说下面这个例子:
设$x_1,x_2\cdots,x_n$是来自均匀总体$U(0,\theta)$ 的样本,试求$\theta$的最大似然估计
第一步,求出似然函数,这里x的取值和$\theta$有关,因此我们需要乘以示性函数。
第二步,我们开始分析。要使 $L(\theta)$ 达到最大,首先示性函数肯定要取1,再让$1/\theta^n$ 尽可能大。由于 $\frac{1}{\theta^n}$是单调减函数,所以$\theta$的取值要尽可能小。但是$\theta$ 又不可能小于样本的最大值$x{(n)}$ 。因此,直接可以得出最大似然估计为 $\hat\theta = x{(n)}$
例4
但是注意了,最大似然也可能是一在一个范围中的,比如说:
求 $p(x;\theta) = 1,\theta-\frac{1}{2}<x<\theta+\frac12$ 这个分布的最大似然估计:
第一步: 写出似然函数:
第二步:求出$\theta$的值或者范围。 要让 $L(\theta)$ 尽量大,首先示性函数应该为1。 这样解出来的$\theta$ 才能保证整个似然函数为1。 $x{(n)}-\frac12<\theta<x{(1)}+\frac12$
例5
设$x_1,x_2,\cdots,x_n$ 是来自密度函数为 $p(x;\theta) = e^{-(x-\theta)},x>\theta$ 的总体的样本。求$\theta$ 的最大似然估计 $\hat\theta_1$ 是否是相合估计,是否是无偏估计?
第一步:写出似然函数:
要让示性函数取1,必须让 $\theta<x{(1)}$ . 所以$\theta$ 最大似然估计为 $\hat\theta_1 = x{(1)}$
然后我们就要判断其是否是无偏估计。
判断是否为无偏估计(需满足 $E(\hat\theta) = \theta$ )
第二步:写出x(1)的密度函数:
因此,$x_{(1)}$不是 $\theta$ 的无偏估计
那么$x_{(1)}$是不是$\theta$ 的相合估计呢? 首先,当$n\rightarrow \infty$ 时,$E(\hat\theta) = \theta$
现在就要验证,当$n\rightarrow \infty$ 时,是否 $Var(\hat\theta) = 0$
因此我们现在要计算 $E(\hat\theta_1^2)$
因此
显然,当 $n\rightarrow\infty$ 时,$Var(\frac{1}{n^2})\rightarrow 0$. 因此,$\hat\theta_1$ 是 $\theta$ 的相合估计
最大似然估计有一个简单而有用的性质:若果$\hat\theta$是$\theta$的最大似然估计,则对任一函数$g(\theta)$,$g(\hat\theta)$ 是其最大似然估计。该性质称为最大似然估计的不变性. 从而使得一些复杂结构的参数的最大似然估计的获得变得更容易了。
渐近正态性
最大似然估计还有一个良好的性质:它通常具有渐近正态性 。现在给出其定义:
参数$\theta$ 的相合估计$\hat\theta_n$ 称为渐近正态的,若存在趋于0的非负常数序列 $\sigma_n(\theta)$ ,使得 $\frac{\hat\theta_n-\theta}{\sigma_n(\theta)}$ 依分布收敛于标准正态分布。这是也称 $\hat\theta_n$服从渐近正态分布$N(\theta,\sigma_n^2(\theta))$ ,记为$\hat\theta_n\sim AN(\theta,\sigma_n^2(\theta))$ ,$\sigma^2_n(\theta)$ 称为$\hat\theta_n$的渐近方差。
例1
设总体为泊松分布$P(\lambda)$,无论是矩估计还是最大似然估计,我们都得到一样的$\lambda$估计:样本均值,即:
由中心极限定理,$(\hat\lambda_n-\lambda)/\sqrt{\lambda/n}$ 依分布收敛 $N(0,1)$,因此, $\hat\lambda_n$是渐近正态的,且:
这里的常数序列 $\sigma_n(\lambda) = \sqrt{\lambda/n}\rightarrow 0$ 它表示$\hat\lambda_n$依概率收敛于$\lambda$的速度为 $ 1/\sqrt{n} $
点估计的评价方法
上面三部分我们讲了几种不同的点估计方法,那么我们怎么来判断一个点估计的好坏呢?前面我们说到了无偏性、相合性。 其实,为了在不同的点估计间进行比较选择,我们就必须对各种点估计的好坏给出评价标准。 统计学中给出了众多的估计量评价标准,对同一估计量使用不同的评价标准可能会得到完全不同的结论。
均方误差
相合性和渐近正态性是在大样本场合下评价估计好坏的两个重要标准。无偏估计常使用方差的大小来判断该估计的好坏,而有偏估计常使用均方误差来判断。
一般而言,在样本量一定时,评价一个点估计的好坏使用的度量指标总是点估计值$\hat\theta$与参数真值$\theta$ 的距离的函数,最常用的函数式距离的平方。但是由于$\hat\theta$具有随机性,可以对该函数求期望。这就是下面给出的均方误差
均方误差是评价点估计的最一般的标准。自然,我们希望估计的均方误差越小越好。注意到:
由于
所以,
我们看到,均方误差由点估计的方差与与偏差$|E(\hat\theta-\theta)|$的平法两部分组成。 如果$\hat\theta$是$\theta$的无偏估计,则$MSE(\hat\theta)=Var(\hat\theta)$,此时用均方误差评价点估计与用方差是完全一样的。这也说明用方差来考察无偏估计的有效性是合理的。
注意了,当$\hat\theta$ 不是$\theta$的无偏估计时,就要看其均方误差 $MSE(\hat\theta)$, 不仅要看其方差大小,还要其偏差大小。在有些情况下,有偏估计其实是优于无偏估计的。
一致最小均方误差估计
设有样本 $x_1,x_2\cdots,x_n$ ,对待参数 $\theta$ ,有一个估计类,称 $\hat\theta(x_1,x_2,\cdots,x_n)$ 是该估计类中$\theta$ 的一致最小均方误差估计,如果对于该估计类中另外任意一个$\theta$ 的估计 $\tilde \theta$ , 在参数空间$\Theta$上都有:
但是,若考虑所有可能的估计,则一致最小均方误差估计是不存在的,从而使没有意义的。因此,人们通常的就对估计提一些合理性要求,前面说的无偏性就是一个常见的合理性要求。
一致最小方差无偏估计
当我们要求$\hat\theta$ 是$\theta$ 的无偏估计时,均方误差就简化为估计的方差,此时一致最小均方误差估计就是一致最小方差无偏估计。 其定义如下:
对于参数估计问题,设$\hat\theta$ 是$\theta$ 的一个无偏估计. 如果对另外任意一个$\theta$ 的无偏估计$\tilde \theta$ ,在参数空间 $\Theta$上都有:
则称$\hat\theta$ 是$\theta$的一致最小方差无偏估计,简记为 UMVUE
定理1
设 $X=(x_1,x_2\cdots,x_n)$ 是来自某总体的一个样本,$\hat\theta=\hat\theta(X)$ 是$\theta$的一个无偏估计,$Var(\hat\theta)<\infty$ , 则 $\hat\theta$是$\theta$的UMVUE的充要条件是:
对任意一个满足 $E(\varphi(X))=0$ 和 $Var(\varphi(X))< \infty$ 都有:
这个定理表明,$\theta$ 的UMVUE 必与任一零的无偏估计不相关,反之亦然。
例1
设 $x_1,x_2\cdots,x_n$ 是来自于下列总体的简单样本
证明样本均值 $\overline x$ 即 $\frac{1}{2}(x{(1)}+x{(n)})$ 都是$\theta$的无偏估计,问哪一个更为有效?
想要问哪一个无偏估计更加有效,就要看看哪一个 $Var(\hat\theta)$更小
第一步:求$E(\hat\theta_1),Var(\hat\theta_1)$
第二步:求$E(\hat\theta_2),Var(\hat\theta_2)$
充分性原则
定理2
设总体概率函数为$p(x;\theta),x_1,x_2\cdots,x_n$ 是其样本,$T=T(x_1,x_2,\cdots,x_n)$ 是$\theta$的充分统计量,则对$\theta$ 的任一无偏估计$\hat\theta = \hat\theta(x_1,x_2\cdots,x_n)$ ,令 $\tilde\theta = E(\hat\theta|T)$ 与$\theta$ 无关,则$\tilde\theta$ 也是$\theta$的无偏估计
这说明,如果无偏估计不是充分统计量的函数,则将其对充分统计量求条件期望可以得到一个新的无偏估计,该估计的方差比原来的估计的方差要小,从而降低了无偏估计的方差。 换言之,考虑$\theta$的估计问题,只需要在基于充分统计量的函数中进行即可,该说法对所有的统计推断问题都是成立的,这就是充分性原则。
例1
设 $x_1,x_2\cdots,x_n$ 是来自$b(1,p)$的样本,则 $\overline x $ 是 p 的充分统计量,为估计 $\theta = p^2$ ,我们可以先令一个”不太准”的$\theta$ 估计
现在我们来看看在这是不是无偏估计:
所以,$\hat\theta1$ 是 $\theta$ 的 无偏估计。 但是这个估计并不好,因为只用了两个观测值。 我们可以用上面说的定理来优化改进: 求 $\hat\theta_1$ 关于充分统计量 $T=\sum{i=1}^nx_i$ 的条件期望,过程如下:
其中 $t = \sum_{i=1}^n x_i$ 可以验证,$\hat\theta$ 是 $\theta$ 的无偏估计,且$Var(\hat\theta)<Var(\hat\theta_1)$
费希尔信息量
最大似然估计的渐近主要由费希尔信息量 $I(\theta)$ 决定,现在先介绍$I(\theta)$ ,然后讲述克拉默-拉奥不对呢公式,又是它可以用来判断UMVUE
设总体的概率函数$p(x;\theta),\theta\in\Theta$ 满足下列条件
- 参数空间 $\Theta$ 是直线上的一个开区间;
- 支撑 $S={x;p(x;\theta)>0}$ 与 $\theta$
- 导数 $\frac{\partial }{\partial\theta}p(x;\theta)$ 对一切 $\theta\in \Theta$ 存在
- 对$p(x;\theta)$ ,积分与微分运算可交换次序,即:
- 期望 $E[\frac{\partial}{\partial\theta}\ln p(x;\theta)]^2$ 存在
那么总体分布的费希尔信息量是:
例1
设总体分布为泊松分布 $P(\lambda)$ ,其分布列:
那么
于是:
CR(克拉默-拉奥) 不等式
设总体分布$p(x;\theta)$ 满足定义上述费希尔通信量的条件,$x_1\cdots,x_n$ 是来自该总体的样本,$T=T(x_1\cdots,x_n)$ 是$g(\theta)$ 的任一个无偏估计,$g’(\theta) = \frac{\partial g(\theta)}{\partial \theta}$ 存在,且对$\Theta$ 中一切 $\theta$ ,对
的微商可在积分号下进行,即:
对离散总体,也是一样。 则有:
将上式称为是克拉默-拉奥不等式,$[g’(\theta)]^2/(n\ln(\theta))$ 称为$g(\theta)$的无偏估计的方差的$C-R$下界。
特别的,对$\theta$ 的无偏估计$\hat\theta$,有 $Var(\hat\theta)\geq(nI(\theta))^{-1}$
如果 $Var(T)=[g’(\theta)]^2/nI(\theta)$ 成立,我们称$T=T(x_1,x_2\cdots,x_n)$是 $g(\theta)$的有效估计。
贝叶斯估计
之前说的经典学派的估计认为,参数是一个值。而贝叶斯学派认为,参数是一个随机变量。
经典学派通过样本采样的方式,来估计参数。但是万一样本较少怎么办?万一只有一次实验,似乎就直接决定了这个参数是什么,这恐怕不太靠谱。
但是理论和现实不太一样,在工业生产中,我们对一个参数可能有预先的判断。 如果综合前面的预判,加上为数不多的样本,就可以让参数的估计变得更加靠谱一些
用学术性的话语来说,经典学派对统计推断使用到了两种信息:总体信息和样本信息。但是,贝叶斯学派认为,除了上述两种信息之外,统计推断还应该使用第三种信息:先验信息。
现在来介绍他一下先验信息:如果我们把抽取样本看做是一次试验,则样本信息就是试验中得到的信息。实际中,人们在试验之前对要做的问题在经验上和资料上总是有所了解的,这些信息对统计推断是有益的。先验信息即抽样(试验)之前有关统计问题的一些信息。
贝叶斯估计总体可以概括为4句话:
- 待估参数$\theta$ 是一个随机变量
- 在得到样本前,对$\theta$ 有一个认识。我们可以用一个分布来刻画这种认识,称为先验分布,通常被认为是 $\pi(\theta)$
- 样本是用来调整对这个参数$\theta$ 的认识的。调整的方式是 Bayes 公式。调整后称其为后验公式
- Bayes推断都是基于后验分布的。
贝叶斯公式的密度函数形式
在贝叶斯统计中,$p(x;\theta)$ 应写为 $p(x|\theta)$ .它表示在随机变量$\theta$ 取某个给定值时总体的条件概率函数
根据参数$\theta$ 的先验信息确定先验分布$\pi(\theta)$
从贝叶斯的观点来看,样本$X=(x_1,x_2,\cdots,x_n)$ 的产生要分两步产生。首先设想从分布$\pi(\theta)$ 产生一个个体$\theta_0$ 这一步是”上帝”做的,我们是看不到的。第二步,从$p(X|\theta_0)$ 中产生一组样本。这时样本$X = (x_1,x_2\cdots,x_n)$ 的联合条件概率函数为:
这个分布综合了总体信息和样本信息
由于$\theta_0$是设想出来的,仍然是未知的,它是按照先验分布$\pi(\theta)$产生的。 为了把先验信息综合进去,不能只考虑$\theta_0$。因此,对$\theta$的其他可能发生的可能性也需要加以考虑,故要用$\pi(\theta)$ 进行综合,这样一来,样本X和参数$\theta$的联合分布为:
我们的目的是要对未知参数$\theta$ 做一个统计推断。在没有样本信息时,我们只能依据先验分布对$\theta$作出判断。在有了样本观测值$X=(x_1,x_2\cdots,x_n)$ 之后,我们应该依据 $h(X,\theta)$ 对$\theta$ 作出推断。若把$h(X,\theta)$做如下分解:
其中$m(X)$是X的边际概率函数
它与$\theta$无关,或者说$m(X)$ 不包含任何关于$\theta$ 的信息。因此能用来对$\theta$作出推断的仅是条件分布 $\pi(\theta|X)$ ,它的计算公式是:
这个条件就是$\theta$ 的后验分布了。它集中了总体、样本和先验中有关$\theta$的一切信息。他要比$\pi(\theta)$更接近$\theta$的实际情况。
那么如何选先验分布? 一般来说是收集历史资料,但是在题目中,我们可以采用同等无知的办法。
例1
对 $x|\theta\sim b(1,\theta),x_1,x_2\cdots,x_n$为样本,$\theta\in (0,1)$ 我们要去估计 $\theta$,那怎么选先验?
第一步:先验分布
在没有样本的情况下,这里我们暂且不适用同等无知的方法,因为我们知道贝塔分布的定义域是在 0-1之间的,因此我们这里可以将$\theta$的先验分布定位$Be(a,b)$, 即 $\pi(\theta) \sim Be(a,b) $
第二步:求后验分布
根据上面的步骤,我们可以写出
最终解得:
贝叶斯估计
我们得出估计之后,就要给出一个$\theta$的估计值,那么通常有三种方法:
- 使用后验分布的密度函数最大值作为$\theta$ 的点估计的最大后验估计
- 使用后验分布的中位数作为$\theta$ 的点估计的后验中位数估计
- 使用后验分布的均值作为$\theta$的点估计的后验期望估计
用得最多的是后验期望估计,它一般也简称为贝叶斯估计,记为$\hat\theta_B$
例1
共轭先验分布
从上面贝叶斯公式可以看出,整个贝叶斯统计推断只要先验分布确定后就没有理论上的困难。关于先验分布的确定有多种途径,此处我们介绍一类最常用的先验分布类——共轭先验分布
设 $\theta$ 是总体分布$p(x;\theta)$ 中的参数,$\pi(\theta)$ 是先验分布,若对任意来自$p(x;\theta)$的样本观测值得到的后验分布$\pi(\theta|X)$ 与 $\pi(\theta)$ 属于同一个分布族,则称该分布族是$\theta$的共轭先验分布(族)
区间估计
上面我们都在说点估计,也就是找一个 $\hat\theta = \hat\theta(x_1,\cdots,x_n)$ 作为 $\theta$ 的估计。 但是现在我们来讲区间估计,也就是要找两个点,令其为 $\hat\theta_L,\hat\theta_U$ 使得 $\hat\theta_L<\hat\theta_U$ 。 这样就能够构成一个区间来估计未知参数。因此,这个区间的精确度和准确度就变得十分重要。
什么是准确度? 在点估计中,可以用MSE来衡量估计的准确度。但是在区间估计中,我们就想让区间能盖住$\theta$ 的概率尽可能大,但是又不能让区间长度太大。因此我们引入置信区间的概念。
定义1:
设 $\theta$ 是总体的一个参数,其参数空间为 $\Theta$, $x_1,x_2\cdots,x_n$ 是来自该总体的样本,对给定的一个$\alpha$, 若对于任意的 $\theta\in\Theta$, 有:
则称 $[\hat\theta_L,\hat\theta_U]$ 为$\theta$的置信水平为 $1-\alpha$ 的置信区间。 $\hat\theta_L$ 和 $\hat\theta_U$ 分别是 $\theta$ 的置信下限和置信上限。我们用频率来解释置信水平。 平均而言,在大量的区间估计观测值中,至少有 $100(1-\alpha)\%$ 包含$\theta$。因此,我们希望置信水平越大越好,$\alpha$ 通常是一个较小的值
了解了置信区间,现在我们再来定义同等置信区间、(单侧)置信下限、(单侧)置信上界
定义2:
如果说,上面置信区间的定义左右两边恰好取等于号时
则称 $[\hat\theta_L,\hat\theta_U]$ 为$\theta$的置信水平为 $1-\alpha$ 的同等置信区间。
定义3:
如果我们构造的区间 形如 $[\hat\theta_L,\infty)$ 那么我们可以定义满足下式时:
称 $\hat\theta_L$ 为$\theta$ 的置信水平为 $1-\alpha$ 的(单侧)置信下限。类似的可以定义同等置信下限
定义4:
如果我们构造的区间 形如 $(-\infty,\hat\theta_U]$ 那么我们可以定义满足下式时:
称 $\hat\theta_U$ 为$\theta$ 的置信水平为 $1-\alpha$ 的(单侧)置信上限。类似的可以定义同等置信上限
那什么又是精确度呢?
通常可以用区间的长度来度量其精确度。我们希望这个区间的长度越短越好。
那么怎么去寻找一个合适的置信区间呢?是选择双侧的置信区间还是单侧的置信区间呢?我们要去看估计的参数的目标是什么。比如说我要估计在一个流水线上螺丝钉的大小,因为螺丝钉的大小一定是有标准的,这时候我们就要使用双侧估计,我们称其为望目,我们是基于目标值给出一个区间估计。 另外一种情况是望大或望小,比如说要去考虑某个行业的收入水平,理论上来说我给出的应该是一个单侧区间,因为不会给出一个收入的天花板,这时候我希望这个参数越大越好。
那么如何构造一个置信区间呢?接下来我们来学习 枢轴量法
枢轴量
枢轴量法的步骤可以概括为如下三步:
- 设法构造一个样本和 $\theta$ 的函数 $G = G(x_1,x_2\cdots,x_n,\theta)$ 使得 G 不依赖于未知参数。一般称这种性质的G 为枢轴量. 还有就是枢轴量的分布已知。 但在这之前,我们得先找找待估参数的点估计。
- 适当地选择两个常数 c,d 使对给定的 $\alpha(0<\alpha<1)$ 有:
在离散场合,上式的等号需改为$\geq$
- 加入能将 $c\leq G\leq d$ 进行不等式等价变形化为 $\hat\theta_L\leq \theta\leq \hat\theta_U$,则有:
这表明$[\hat\theta_L,\hat\theta_U] $ 是 $\theta$ 的 $1-\alpha$ 的同等置信空间。
能满足 $P(c\leq G\leq d) = 1-\alpha$ 的c 、d取值有很多,选择的目的是希望 $E_\theta(\hat\theta_U-\hat\theta_L)$ 尽可能短。其实,很难找到最佳的c、d,一般是让两个尾部的概率各位$\alpha/2$ 即:
现在我们来讲几个例子:
例1
$x_1,x_2\cdots,x_n\sim N(\mu,\sigma_0^2)$ , $\sigma_0$ 已知,用枢轴量法来估计$\mu$
第一步求 $\mu$ 的点估计 : $\hat\mu = \overline x$
第二步 求 $\overline x$ 的分布 即 $\overline x\sim N(\mu,\frac{\sigma_0^2}{n})$
第三步 标准化 ,
现在, G 是一个枢轴量了,因为只和样本、待估参数 $\mu$ 有关,没有未知参数,且G的分布已知
第四步 我们的目标是找到一个区间,把这个区间用足(区间准确率又要高,区间长度又要短)。
我们要找两个分位数点,使得被这两个点夹住 的部分的概率等于 $1-\alpha$
假设我定义左边的点为 $u{\alpha_1}$,右边的点为 $\mu{\alpha_2}$,如下图所示:
我们用 $\alpha_1$表示 $\alpha_2$,那么从面积来看,$\alpha_2$ 为左侧两块面积之和即 $\alpha_2 =1- (\alpha-\alpha_1)$
我一定能找到这样的分位数点,使得:
第五步 反解 $\mu$
可以证明 当 $\alpha1 = \alpha/2$ 时,区间长度最小。此时,$u{\alpha1} = -u{1-\frac{\alpha}2}$
第六步 得出区间估计
例2
现在,我们对原题做一个小变形,就是说把 $\sigma_0$ 从已知改成未知。
即 $x_1,x_2\cdots,x_n\sim N(\mu,\sigma^2)$ 要估计 参数 $\mu$
第一步求 $\mu$ 的点估计 : $\hat\mu = \overline x$
第二步 求 $\overline x$ 的分布 即 $\overline x\sim N(\mu,\frac{\sigma^2}{n})$
第三步 标准化 ,
我们发现这时候标准化后的式子不再是枢轴量了,因为里面包含了一个 未知的”讨厌参数“ $\sigma$
该怎么办?
第四步
既然$\sigma$未知,不妨用 $\sigma^2$ 的估计代替 $\sigma^2$,也就是 $\hat\sigma^2 = s^2$, 再带入原式得:
现在G 已经是一个枢轴量了,因为变形之后 $\sigma^2$ 会被约掉
上面是一个标准正态N(0,1), 下面是一个卡方分布/(n-1) ,这说明 $G\sim t(n-1)$
第五步 变形
类似于上一个例子,可以得到此时 $\mu$ 的 $1-\alpha$ 置信区间为
例3
$x_1,x_2\cdots,x_n\sim U(0,\theta)$ ,用枢轴量法来估计$\theta$
第一步 求 $\theta$ 的点估计 : $\hat\theta =x_{n}$
第二步 求 $x{(n)}$ 的分布 即 $G = \frac{x{(n)}}{\theta}\sim Be(n,1)$
第三步
$c,d$ 是贝塔分布的两个分位数点,
因此 我们要选择适当的c和d使得:$d^n-c^n = 1-\alpha$
第四步 变形得到:
该区间的平均长度为 $(\frac{1}{c}-\frac{1}{d})E(x_{(n)})$ ,在上述条件下,求导两次可以得到:当 $d=1,c=\sqrt[n]{\alpha}$ 时,$\frac{1}{c}-\frac{1}{d}$取最小值,这说明:
是 $\theta$ 的此类区间估计中置信水平为 $1-\alpha$ 的最短置信区间
例4
现在我们来估计 $\sigma^2$
也就是 $x_1,x_2\cdots,x_n\sim N(\mu,\sigma^2)$
第一步: 给出$\sigma^2$ 的点估计: $\hat\sigma^2 = s^2$
第二步: 求出 $s^2$ 的分布:
这个量是枢轴量,因为分布已知且只和待估参数有关
第三步:
第四步 反解得到:
值得注意的是,这两个点并不是关于0对称的,因为卡方本身并不是一个对称分布。那么这两个点怎么找呢?找最优解是很麻烦的,实际上我们直接令 $\alpha_1 = \alpha/2$ 即可。实际中, $\alpha/2$和 最优解的相差也并不是很大。
例题5
上面说的都是连续的估计,现在我们来说一下离散的估计。
$x_1,x_2\cdots,x_n\sim b(1,\theta)$ ,让我们估计事件A成功地概率 $\theta$
第一步: 求出$\theta$的点估计。
第二步:求 $\overline x$ 的分布
第三步:标准化,用中心极限定理
这是一个枢轴量,因为分布已知且只与目标参数 $\theta$ 有关
第四步 构造近似置信区间
因为这是一个对称的分布,所以我们可以这样写:
解得
从上面这个式子来看,在对称的枢轴量分布时(通常是标准正态),可以直接求解:
来求解未知参数
例题6
现在我们来讲两个正态总体下的置信空间
设 $x_1,\cdots,x_n$ 是来自 $N(\mu_1,\sigma_1^2)$ 的样本 ,$y_1,\cdots,y_n$ 是来自$N(\mu_2 ,\sigma_2^2)$ 的样本,且两个样本相互独立 ,$\sigma_1^2,\sigma_2^2$ 已知。$\overline x$ 和 $\overline y$ 是他们的样本均值,现在我们要计算 $\theta = \mu_1-\mu_2$ 的置信区间
第一步:
求出 $\theta$ 的点估计: $\hat\theta = \hat x-\hat y$
因为 $\overline x\sim N(\mu_1,\frac{\sigma_1^2}{m}),\overline y \sim N(\mu_2,\frac{\sigma_2^2}{n})$
因此 $\hat\theta \sim N(\mu_1-\mu_2.\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}n)$
第二步 标准化
第三步
例题7
刚才说的是, $\sigma_1^2,\sigma_2^2$ 已知的情况,现在来谈谈 ,$\sigma_1^2,\sigma_2^2$ 未知的情况
第一步: 求 $\theta$ 的点估计 $\hat\theta=\overline x-\overline y = \mu_1-\mu_2$
第二步: $\overline x\sim N(\mu_1,\frac{\sigma^2}{m}),\overline y \sim N(\mu_2,\frac{\sigma^2}{n})$
第三步 标准化
这并不是一个枢轴量,我们需要把 $\sigma^2$ 换成样本方差。
第四步:
那么在两样本的时候,样本方差就要用合方差来替换:
第五步: 带入原式构造枢轴量:
第六步
反解得到:
例题8
求 $\theta = \frac{\sigma_1^2}{\sigma_2^2}$ 的区间估计,在这种情况下,$\mu_1,\mu_2$ 都是默认未知的
第一步: 求 $\theta$ 的点估计。
第二步: 构造枢轴量:
已知 $s_x^2,s_y^2$ 是互相独立且可以变换成 $\mathcal{X}^2$ 分布
第三步:
第四步: 反解得到: