数理统计之参数估计
Posted on 2014-05-22 14:30:14 Mathematic Views: 1525

有些东西久了不用就真的生疏了,该篇文章主要为了重新拾起数理统计相关背景知识

一些背景介绍

引子:什么是参数估计问题?

举个例子,某工厂生产一大批电子元件,假定这些元件的寿命服从某种分布,那么元件的平均寿命如何?元件的平均寿命可以作为一个未知参数,那么我们如何来计算这个位置参数?

  • 最精确的方法,全部测一遍

既然要计算这一批元件的平均寿命,就把所有的元件使用以下,直到寿终正寝,得到寿命值,然后算均值

  • 但是,这不科学啊,都用完了还怎么出厂销售啊
    所以只能产品中按照某种方式抽取一部分样品来估算平均寿命了,这样听着靠谱多了

因此,上述第一个问题就是参数估计问题,这也是最重要的统计问题之一。还有一种重要的统计问题就是假设检验问题,比如说,现在估算出来平均寿命,但是这个平均寿命是否可以接受呢?我们怎么知道它是好是坏呢?这批产品该不该出厂呢?

好吧,进入正题

几个重要的概念:总体样本统计量

详细定义这里不表,简单整理下思路,统计量只依赖于样本,不能依赖于总体分布中的所包含的未知参数。
几个常见的统计量:

  • 样本均值:$\overline X = (X_1 + ... + X_n)/n $
  • 样本方差:$S^2 = \sum_{i=1}^n{(X_i-\overline X)^2}/(n-1) $
  • 样本矩之k阶样本原点矩:$a_k=(X_1^k+...+X_1^k)/n $
  • 样本矩之k阶样本中心矩:$m_k=\sum_{i=1}^n{X_i-\overline X}/n $

补充两个相似概念:

  • 随机变量X的k阶原点矩:$\alpha_k=E(X^k))$ 也就是期望
  • 随机变量X的k阶中心距:$\mu_k=E[(X-EX)^k]$ 也就是方差

原来我们发现:

  • 样本均值就是一阶样本原点矩
  • 样本方差也和二阶样本中心矩有着某种关系$m_2=\frac{n-1}{n}S^2$

Okay,都是些常识,没有难度,背景水完了

点估计

顾名思义,用一个点(一个数)去估计另一个点(参数)

点估计之矩估计

矩估计就是利用样本矩来估计总体中相应的参数。最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差。

还是来个实例:

设总体分布为$f(x;\theta_1,...,\theta_k)$, 则它的矩(原点矩,中心矩也可以)为:

$$ \alpha_m = \int_{-\infty}^{\infty}{x^m f(x;\theta_1,...,\theta_k)dx} $$

可以看出它的矩依赖于$\theta_1,...,\theta_k$,怎么估计这些参数呢?

在样本大小较大的时候,$\alpha_m$是接近于样本原点矩的$a_m$的,于是有了下面的这个近似等式:

\[ \alpha_m = \alpha_m(\theta_1,...,\theta_k) \approx a_m = \sum_{i=1}^{n}{X_i^m}/n \]

将近似等式改成等式,可以得到一个方程组,然后解方程组,得到根$\hat{\theta_i}=\hat{\theta_i}(X_i,...,X_k)$,而$\hat{\theta_i}$就可以作为$\theta$的估计。

综上所述,这样定出的估计量就叫做矩估计。

再来一个更具体的例子:

指数分布总体中抽出的样本$X_1,...,X_n$,现在要估计参数$\lambda$的倒数数$1/\lambda$,这里有两种方式:

  • $1/\lambda$是总体分布的均值,可以用$\overline{X}$来估计,因此$\lambda=1/\overline{X}$
  • $1/\lambda^2$是总体分布的方差,可以使用$S^2$来估计,因此$1/\lambda^2=m_2=\frac{n-1}{n}S^2 \rightarrow \lambda=\frac{1}{S}\sqrt{\frac{n}{n-1}}$

这样就有了一个问题,哪一个更好?

这里有一个一般原则:能用低阶矩处理的就不要用高阶矩处理

点估计之极大似然估计

现在理解来看,极大似然估计就是利用似然函数来求极大值,进而估计参数,抽象来说:

已知总体分布$f(x;\theta_1,...,\theta_k), X_1,...,X_n$为抽样本,则样本的的分布(概率密度函数或概率函数)为:

\[ L(x_1,...,x_n;\theta_1,...,\theta_k) = f(x_1;\theta_1,...,\theta_k)f(x_2;\theta_1,...,\theta_k)...f(x_n;\theta_1,...,\theta_k) \]

概率密度函数L也可以看做是X固定情况下$\theta$的函数,因此称之为似然函数。对不同$\theta$的取值,反映了再观察结果X已知的条件下,$\theta$的各种值似然程度。既然有不同的$\theta$值,那么用似然程度最大的那个点去估计参数应该是最好的:

\[ L(x_1,...,x_n;\theta_1^*,...,\theta_k^*) = max_{\theta_1,...,\theta_k} L(x_1,...,x_n;\theta_1^...,\theta_k) \]

因此这个$(\theta_1^*,...\theta_k^*)$就是参数$(\theta_1,...\theta_k)$的极大似然估计。
那么怎么去做极大似然估计呢?

首先把似然函数转化为对数似然函数

\[ lnL = \sum_{i=1}^{n}{lnf(X_i;\theta_1,...,\theta_k)}\]

然后针对lnL求最大值值就好,因此可以对其做偏导数置0求出极值点,然后验证其为极大值点即可。
来个小总结:

  • 矩估计和极大似然估计在多数情况下是一致的,当然只是某种巧合,说明两种估计是良好的
  • 非万能方法,比如柯西分布时,就没法应用
  • 研究者们的结论:在各种估计方法中,相对来说它一般更为优良,但在个别情况下也不理想
  • 极大似然估计要求分布有参数形式,对分布情况不知道的情况下,就没有办法了

点估计之贝叶斯估计

在矩估计和极大似然估计中,不需要对$\theta$有任何了解,所有的信息全来自样本;

贝叶斯学派的一个重要观点是:是在抽样之前,对$\theta$有一定的认识,也就是“先验知识”,结合先验知识再去估计参数$\theta$,也就是在取得样本$X_1,...X_n$后最参数$\theta$的知识,其概率密度可以表示为$h(\theta|X_1,...,X_n)$.

下面可以看下怎么计算?

\[ f(\theta, X_1,...,X_n) = h(\theta)f(X_1|\theta)...f(X_n|\theta) = h(\theta|X_1,...X_n)p(X_1,...,X_n)\]
\[ p(X_1,...,X_n) =\int{h(\theta)f(X_1|\theta)...f(X_n|\theta)}d\theta \]
\[ \rightarrow h(\theta|X_1,...,X_n) = h(\theta)f(X_1,\theta)...f(X_n,\theta)/p(X_1,...,X_n) = \frac{h(\theta)f(X_1|\theta)...f(X_n|\theta)}{\int{h(\theta)f(X_1|\theta)...f(X_n|\theta)}d\theta} \]

上述得到的结果就是“后验密度”,做了试验后才取得的。贝叶斯学派的另一个重要观点是:

在得到后验分布后,任何对参数$\theta$的任何推断都只能基于这个后验分布。以点估计问题来说,一个常用的方法是:取后验分布的均值作为$\theta$的估计。

写到这里,自然而然有另一个重要的疑惑,就是先验密度怎么确定?既然贝叶斯学派需要在抽样前确定一个先验知识,如果有先例还好办,如果这是一个新事物,没有任何经验怎么办?

贝叶斯本人提出了一个“同等无知”原则,也就是贝叶斯原则(也是存在争议的一个原则):即事先认为p取[0,1]内一切值都有同等可能,也就是,取[0,1]内的均匀分布作为p的先验分布。

PS:争议的一个方面是,这一原则的不确定性. 若对p同等无知,那么对$p^2,p^3,...$等也应该是同等无知,也可以把$p^2$的密度函数取为均匀分布,那么会得出一个不一致结果出来。

点估计之评价:优良性准则

由上述可以看出,参数估计可以有多种方法,估计出来的参数可能往往不止一种,那么对于过个参数估计结果,例如$\hat{\theta_1},\hat{\theta_2}$两个估计,哪一个为优呢?

由于整体参数$ \theta $未知,同时$ \hat{\theta_1},\hat{\theta_2} $也与样本值 有关,样本是有其局限性的。为此,衡量必须在某种整体性能下:

  • 估计量的某种特性:如,无偏性
  • 某种具体的数量性指标:如,均方误差
估计量的无偏性

一句话简而言之,估计量的期望被估计参数,形式化如下:

对任何可能的$(\theta_1,...,\theta_k) $都有$E_{\theta_1,...,\theta_k}[\hat{g}(X_1,...X_n)] = g(\theta_1,...,\theta_k)$,则$\hat{g}(\theta_1,...,\theta_k)$$g(\theta_1,...,\theta_k)$的一个无偏估计。

最小方差无偏估计

一个参数往往不止一个无偏估计,这里讨论怎在多个无偏估计中寻找一个最优的呢?有如下几个方法:

  • 均方误差:误差平方的均值$M_{\hat{\theta}}(\theta) = E_{\theta}[\hat{\theta}-\theta]^2$
  • 最小方差无偏估计(MVU, Minimum Variance Unbiased):无偏估计的基础上,比较方差,小者为优

那么MVU怎么去获得呢?这里可以参考一种方法:克拉美-劳不等式

在一定条件下,对$g(\theta)$的任一无偏估计$\hat{g}$

\[ Var_{\theta}(\hat{g}) \ge (g^{'}(\theta))^2/(nI(\theta)) \]
\[ I(\theta) = \int{[(\frac{\partial{f(x,\theta)}}{\partial{\theta}})^2/f(x, \theta)]dx} \]

这个不等式正好给出了方差下界,如果某个无偏估计的方差正好达到这个下界,则就是MVU估计

相合性和渐近正态性

这里就不在给出形式化描述,简单理解

  • 相合性就是如果当样本大小无限增大的时候,估计量概率收敛于被估计量概率
  • 渐近正态性:许多复杂的统计量,在样本很大的时候,其分布都接近正态分布

以上这两种都属于大样本特性,只有在样本很大的时候谈才有意义

区间估计

顾名思义,用一个区间去估计一个参数,把参数限定在某个区间中。

由于没有好好理清思路,简而言之就是把需要估计的参数,估计在某个区间中,这会涉及到区间的两个端点。区间估计一方面需要保证被估计参数在区间中的概率尽可能的大;另一方面需要精度高,就是指区间差较小。这些应该是基本思想。

找区间估计的方法:枢轴变量法

  • 找一个参数的有关统计量,比如一个良好的点估计
  • 找出统计量和参数的一个关联函数S,其分布与统计量无关,S称为枢轴变量
  • 关联函数S不等式的改写,化简为与短点有关,与统计量无关
  • 去分布的分位点计算

还有方法:

  • 大样本法,适用于样本大小很大的极限分布,主要是根据中心极限定理建立枢轴变量
  • 贝叶斯法,由先验密度函数和样本计算出后验密度函数,再找两个区间端点积分到置信区间就可以了(只有计算困难度,无原则困难度,相比其他方法)

Conclusion

基本回顾了参数估计的一些方法和原理,后面部分介绍不是很详细,时间影响,主要是讲了下思想,没有给出形式化的表述,若有需要直接参看我的参考文献即可。时间问题,若有错误欢迎留言指正讨论。

Reference(其实更多细节这里都有)

  • 概率论与数理统计[陈希孺文集]