3.2 点估计
3.2.1 点估计的概念
点估计是直接以样本统计量作为相应总体参数的估计量。当总体随机变量X的分布函数形式为已知,但它的一个或多个参数未知时,可以通过该总体的样本值对其参数做出估计。这种利用总体随机变量X的样本值x1,x2,…,xn对X的已知分布函数形式中未知参数的值做出合理估计的方法,称为参数的点估计方法。例如,,表示以样本均值X作为总体均值μ的估计量,并根据实际抽样调查资料计算样本平均值,作为总体均值参数的估计值。例如,根据某地区样本资料计算粮食亩产600千克,就以这个数字作为全地区粮食亩产水平的估计值。点估计的优点在于,它能够提供总体参数的具体估计值,可以作为行动决策的数量依据。例如,推销部门对某产品估计出全部推销额数值,并分出每月销售额,便可传递给生产部门作为制订生产计划的依据,而生产部门又可将各月产量计划传递给采购部门作为制订原材料采购计划的依据等。点估计也有不足之处,任何点估计不是对就是错,并不能提供误差情况如何、误差程度有多大等信息。
3.2.2 点估计的优良性标准
估计总体参数,未必只能用一个统计量,也可以用其他统计量。例如,估计总体均值,可以用样本均值,也可以用样本中位数、众数等。应当以哪一种统计量作为总体参数估计量才是最优的,这就有了评价统计量的优良估计标准问题。所谓优良估计总是从总体上来说的,优良估计量应该符合以下三个标准。
(1)无偏性
以样本统计量作为总体参数的估计量,要求样本统计量的期望值(均值)等于被估计的总体参数。设未知参数为θ,其估计量记为=g(x1,x2,…,xn),若估计量
的数学期望等于未知参数θ,E(
)=θ,就称
为θ的无偏估计。就是说,虽然每一次抽样,所决定的统计量取值和总体参数的真值可能有误差,误差可正可负,可大可小,但在多次反复的估计中,所有样本统计量取值的均值应该等于总体参数本身,即样本统计量的估计平均起来是没有偏误的。能够证明,样本均值作为总体均值的估计量是符合无偏性要求的,即

(2)有效性
无偏性只考虑估计值的平均结果是否等于被估参数的真值,而不考虑每个估计值与被估参数真值之间的偏差。在解决实际问题时,往往被估参数的无偏估计不止一个,需要进一步判断哪个估计值更有效。以样本统计量估计总体参数,要求作为优良估计量的方差应该比其他估计量的方差小。一般来说,如果和
都是θ的无偏估计量(对于给定的样本容量而言),而
的方差
小于
的方差
,可以认为
相对来说是更有效的估计量。若不存在比无偏估计
更有效的无偏估计量时,则称
为θ的最小方差无偏估计。
例如,用样本均值或用总体任一变量来估计总体均值,虽然两者估计量都是无偏的,而且在每次估计中,两种估计值与总体均值都可能有离差,但样本均值更集中在总体均值的周围,平均说来样本均值的偏差更小,相对而言,样本均值是更为有效的估计量。可以证明,在总体期望E(-)= μ的一切线性无偏估计中,样本均值
是其最小方差的无偏估计量。
(3)一致性
以样本统计量估计总体参数,要求当样本的容量充分大时,样本统计量也充分靠近总体参数。一般来说,如果样本容量n增大时,估计量更趋近于参数θ,就称
为θ的一致估计量。就是说随着样本容量n的无限增加,样本统计量和被估计的总体参数之差的绝对值小于任意小数,它的可能性也趋近于必然性,或者说这一事实几乎是肯定的。可以证明,以样本均值估计总体均值,也符合一致性的要求,即存在下面的关系式

不是所有估计量都符合以上标准。可以说,符合以上标准的估计量要比不符合或不完全符合以上标准的估计量更优良。例如,在正态分布下,总体均值和中位数是相重合的,样本均值是总体中位数的无偏估计量和一致估计量,而且样本均值比样本中位数作为总体中位数的估计量更有效,因为样本均值的方差比样本中位数的方差更小。在正态分布下,样本中位数是总体均值的无偏估计量和一致估计量。但对比样本均值却不是更有效的估计量,因为它的方差比样本均值的方差大,当然样本中位数也不是总体中位数的有效估计量。
3.2.3 点估计的方法
参数的点估计有许多方法,如矩法、极大似然法、贝叶斯法等,以下介绍矩法和极大似然法两种比较重要的方法。
1.矩法
矩法是1894年由卡尔·皮尔逊提出来的点估计方法。矩在统计学中是指以数学期望为基础而定义的数字特征,如数学期望、方差等。矩可分为原点矩和中心矩两种。矩法是指用样本的数字特征作为总体数字特征的估计方法。
设X为随机变量,对任意正整数 k,称 E(Xk)为随机变量 X的 k阶原点矩,记为 mk=E(Xk);Ck=E[X-E(X)]k称为以E(X)为中心的k阶中心矩。
当k=1时,m1=E(X)=μ,即一阶原点矩是随机变量X的数学期望。
当k=2时,C2=E[X-E(X)]2=σ2。
设待估计的参数为θ1,θ2,…,θk。
设总体的r阶矩存在,记为E(Xr)=μr(θ1,θ2,…,θk)。
样本X1,X2,…,Xn的r阶矩为

令

则组成了含未知参数θ1,θ2,…,θk的方程组。
建立方程组,得k个统计量:

代入一组样本值,得k个数:

【例3-1】 设总体X~N(μ,σ2),X1,X2,…,Xn为总体的样本,求μ,σ2 的矩法估计量。
解:


【例3-2】 设从某灯泡厂某天生产的灯泡中随机抽取10只灯泡,测得其寿命(单位:小时)为1050,1100,1080,1120,1200,1250,1040,1130,1300,1200。试用矩法估计该厂当天生产的灯泡的平均寿命及寿命分布的方差。
解:


2.极大似然法
极大似然估计方法是求估计的另一种方法,1821年首先由德国数学家C.F.Gauss提出,但是这个方法通常被归功于英国的统计学家R.A.Fisher,他在1922年的论文《理论统计学的数学基础》中再次提出了这个思想,并且首先探讨了这种方法的一些性质。极大似然估计这一名称也是Fisher给的,这是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干可能的结果A,B,C,…。若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。
求极大似然函数估计值的一般步骤:写出似然函数→对似然函数取对数并整理→求导数→解似然方程。
极大似然估计,只是概率论在统计学中的一种应用,它是参数估计方法之一。说的是,已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
【例3-3】 设总体X服从0-1分布,且P(X=1)=p,试用极大似然法求p的估计值。
解:总体X的概率分布为

设x1,x2,…,xn为总体样本X1,X2,…,Xn的样本值,则

对于不同的p,L(p)不同,如图3-1所示。

图3-1 L(p)曲线图
经过一次试验,(X1=x1,X2=x2,…,Xn=xn)发生了,则p的取值应使这个事件发生的概率最大。在容许范围内选择p,使L(p)最大。注意到,lnL(p)是L的单调增函数,故若某个p使lnL(p)最大,则这个p必使L(p)最大。


所以为所求p的估计值。
一般来说,设X为离散型随机变量,其分布律为P(X=x)=f(x,θ),则样本X1,X2,…,Xn的概率分布
P(X1=x1,X2=x2,…,Xn=xn)=f(x1,θ)f(x2,θ)…f(xn,θ)
记为

称L(θ)为样本的似然函数。
(1)极大似然的思想
选择适当的θ=,使L(θ)取最大值,即

称这样得到的=g(x1,x2,…,xn)为参数θ的极大似然估计值,称统计量
=g(X1,X2,…,Xn)为参数θ的极大似然估计量。
若X连续,取f(xi,θ)为Xi的密度函数,似然函数为 ,未知参数可以不止一个,如θ1,θ2,…,θk,设X的密度(或分布)为f(x,θ1,θ2,…,θk),则定义似然函数为

若L(x1,x2…,xn;θ1,θ2,…,θk)关于θ1,θ2,…,θk可微,则称

为似然方程组。若对于某组给定的样本值x1,x2,…,xn,参数,
,…,
使似然函数取得最大值,即

则称,
…,
为θ1,θ2,…,θk的极大似然估计值,则
=gr(x1,x2,…,xn)(r=1,2,…,k)为统计量。
=gr(X1,X2,…,Xn)(r=1,2,…,k)为θ1,θ2,…,θk的极大似然估计量。
【例3-4】 设总体X服从N(μ,σ2),x1,x2,…,xn 是X的样本值,求μ,σ2 的极大似然估计。
解:

似然方程为
推导出


μ,S2的极大似然估计量分别为,
。
(2)极大似然估计方法
① 写出似然函数L。
② 求出,
,…,
,使
若L是θ1,θ2,…,θk的可微函数,则解似然方程组


可得未知参数的极大似然估计值,
,…,
,然后再求得极大似然估计量。
若L不是θ1,θ2,…,θk的可微函数,需用其他方法求极大似然估计值。
【例3-5】 设X~U(a,b),x1,x2,…,xn是X的一个样本值,求a,b的极大似然估计值与极大似然估计量。
解:X的密度函数为f(x;a,b),其似然函数为

似然函数只有当a<xi<b(i=1,2,…,n)时才能获得最大值,且a越大,b越小,L越大。令

取,
,则对满足a≤xmin≤xmax≤b的一切a<b,都有
,故
,
是a,b的极大似然估计值。

例如,设X~U是X的一个样本,求a的极大似然估计值。
由上例可知,当,即
时,L取最大值1.显然,a的极大似然估计值可能不存在,也可能不唯一。
不仅如此,任何一个统计量g(X1,X2,…,Xn),若满足,都可以作为a的估计量。
3.2.4 点估计的SPSS应用
可以使用SPSS软件对样本数据的均值和方差进行计算,从而推断总体均值μ的估计值、总体方差σ2的估计值及总体标准差σ的估计值。
如例2-7有关罐头质量的例题,采用该数据去推断该批次罐头总体质量情况。
1.使用频次分析模块
在数据管理窗口中,单击Analyze菜单,选择Descriptive Statistics中的Frequencies命令(如图3-2所示),弹出Frequencies对话框,如图3-3所示。

图3-2 Analyze菜单

图3-3 Frequencies对话框
选中左侧的净重,单击“右侧箭头”按钮,将其送入右侧变量列表框,单击Statistics按钮,弹出如图3-4所示的对话框。

图3-4 Frequencies:Statistics对话框
Quartiles:计算四分点(四分位的值)。
Cut Points for 10 equal groups:是否需要将数据按照由小到大的顺序分成个数相等的10个组,其中“10”是可修改的(改成4则输出的是四分位点和中位数)。
Percentile(s):设置输出所指定的百分点(0~100)。
Mean:均值。
Median:中位数。
Mode:众数。
Sum:样本数据值总和。
Std.deviation:标准差。
Variance:方差。
Range:最大值与最小值之差。
Minimum:最小值。
Maximum:最大值。
S.E.mean:均值标准差。
Skewness:数据分布的斜度。
Kurtosis:数据分布的峰度。
本例选择Mean、Std.deviation、Variance。单击Continue按钮回到主对话框,再单击OK按钮得到如表3-1所示结果。
表3-1 净重均值、方差估计值(g)(Statistics)

由表3-1可知,从100个样本中推断总体的净重均值为343.76 g,方差为17.053。
2.使用描述统计模块
在数据管理窗口中,单击Analyze菜单,选择Descriptive Statistics中的Descriptives命令(如图3-5所示),弹出Descriptives对话框,如图3-6所示。

图3-5 菜单Descriptives选择

图3-6 Descriptives对话框
选中左侧的净重,单击“右侧箭头”按钮,将其送入右侧变量列表框,单击Options按钮,弹出如图3-7所示的对话框。

图3-7 Descriptives:Options对话框
选中Mean、Std。deviation、Variance。单击Continue按钮回到主对话框,再单击OK按钮得到如表3-2所示的结果,该结果和表3-1数据是相同的。
表3-2 净重均值、方差估计值(g)(Descriptive Statistics)
