3.3 区间估计

如前所述,点估计是用一个点(即一个数)去估计未知参数。顾名思义,区间估计(Interval Estimator)就是用一个区间去估计未知参数,即把未知参数值估计在某两界限之间。例如,估计明年GDP增长在7% ~8%之间,比说增长8%更容易让人们相信,因为给出7% ~8%已把可能出现的误差考虑到了。

现今最流行的一种区间估计理论是统计学家J.Neyman在20世纪30年代建立起来的,叙述如下。

x1x2,…,xn是来自密度fXθ)的样本,对给定的α(0<α<1),如能找到两个统计量θ1x1x2,…,xn)及θ2x1x2,…,xn),使

P{θ1x1x2,…,xn)≤θθ2x1x2,…,xn)} =1-α

则称1-α是置信度,置信度也称为置信概率,[θ1x1x2,…,xn),θ2x1x2,…,xn)]是置信度为1-αθ的置信区间,α称为显著性水平(Significance Level),如图3-8所示。

图3-8 区间示意图

这里需要指出的是,区间[θ1x1x2,…,xn),θ2x1x2,…,xn)]是随机区间,不同的样本观测值会得到不同的区间。对于置信区间和置信度,可以用频率来说明。如果[θ1x1x2,…,xn),θ2x1x2,…,xn)]是置信度为0.95的置信区间,只要反复从fxθ)中取样k次,通过每次所取样本求得相应的置信区间[θ1x1x2,…,xn),θ2x1x2,…,xn)],从而得到k个区间,且这些区间 [θ1θ2] 不尽相同。有的包含真值θ,有的并不包含θ,包含θ的区间出现的频率应在0.95附近波动。

置信区间表达了区间估计的精确度,置信概率表达了区间估计的可靠性,它是区间估计的可靠概率,而显著性水平表达了区间估计的不可靠的概率。例如,α=0.01或1%,是说总体指标在置信区间内,平均100次有1次会产生错误。

当然,在进行区间估计时,必须同时考虑置信概率与置信区间两个方面,即置信概率定得越大(即估计的可靠性越大),则置信区间相应也越大(即估计精确性越小)。所以,可靠性与精确性要结合具体问题、具体要求来全面考虑。

区间估计的特点是它并不是指出被估计参数的确定数值,而是指出被估计参数的可能范围,同时对参数落在这一范围内给定相应的概率保证程度。正如前面已经指出的那样,参数的可能范围是估计的准确性问题,而相应的概率保证程度(置信度)是估计的可靠性问题。在做估计时常常希望准确性尽可能提高,而且可靠性也不能小,但是这两个要求是矛盾的。在样本容量不变的条件下,要缩小估计区间,提高估计准确性,势必减少置信度,降低统计的可靠性。

3.3.1 总体方差σ2已知时,总体均值μ的估计

XNμσ2)时,可以证明取自该总体的简单随机样本x1x2,…,xn的样本均值x服从数学期望为μ、方差为σ2/n的正态分布,即,所以当σ2已知时,建立置信区间所用的统计量是服从正态分布的统计量,即

根据区间估计的定义,在1-α置信度下

从而有

即在1-α置信度下,μ的置信区间为

置信区间的宽度为

【例3-6】 已知某零件的直径服从正态分布,从该批产品中随机抽取10件,测得平均直径为202.5mm,已知总体标准差σ =2.5mm,试建立该种零件平均直径的置信区间,给定置信度为0.95。

解:已知XNμσ2),=202.5mm,n=10,1-α=0.95,查标准正态分布表得μα/2 =1.96,所以在1-α置信度下,μ的置信区间为

,计算结果为 [200.95,204.05]。

当总体为非正态总体时,根据中心极限定理可以证明,当样本容量n足够大时,样本均值X近似服从数学期望为μ、方差为σ2/n的正态分布。经验表明,n≥30,可近似认为样本容量足够大。

3.3.2 总体方差σ2未知时,总体均值μ的估计

n≥30时,通常用样本方差S2来估计。用S2代替σ2建立置信区间,只须将其中的σS近似代替即可。

n<30时,有

所以

Pttα/2n-1))=1-α

所以

即在1-α置信度下,μ的置信区间为

【例3-7】 某大学从该校学生中随机抽取100人,调查到他们平均每人每天完成作业的时间为120分钟,样本标准差为30分钟,试以95%的置信水平估计该校学生平均每天完成作业的时间。

解:根据题意可知

1-α=0.95 μα/2=1.96

故在95%的置信度下,μ的置信区间为 ,即[120-1.96×30/10,120 +1.96×30/10],计算结果为[114.12,125.88]。

【例3-8】 已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下:

建立该批灯泡平均使用寿命95%的置信区间。

解:已知XNμS2),n=16,1-α=95%tα/2 =2.131.根据样本数据计算得x=1490,s=24.77。总体均值μ在1-α置信水平下的置信区间为

该种灯泡平均使用寿命的置信区间为1476.8~1503.2小时。

3.3.3 总体方差的区间估计

当总体为正态分布时,

式中,,所以在1-α置信度下,σ2的置信区间为

总体标准差σ的置信区间为

3.3.4 总体比率的区间估计

设总体容量为N,其中具有某种特点(性质)的元素数为M,则称p=M/N为总体的比率。

N中抽取n个样本,其中具有某种特点的元素数为XX=0,1,…,n),则称为样本比率。

当样本容量n足够大时(一般不少于30),,总体比率p的1-α置信水平下的置信区间为

【例3-9】 某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。

解:已知n=100,p=65%,1-α=95%zα/2=1.96。

故该城市下岗职工中女性比例的置信区间为55.65% ~74.35%。

3.3.5 区间估计的SPSS应用

调用SPSS软件的Explore功能:可对变量进行更深入详尽的描述性统计分析,称为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。以例3-8灯泡寿命的区间估计为例,说明Explore功能的应用。

在数据管理窗口中,单击Analyze菜单,选择Descriptive Statistics中的Explore命令(如图3-9所示),弹出Explore对话框,如图3-10所示。由于本例只有灯泡寿命一个变量,且需要对灯泡寿命进行探索性分析,故在对话框左侧的变量列表中选灯泡寿命,单击“右侧箭头”按钮使之进入Dependent List列表框。

图3-9 Explore菜单选择

图3-10 Explore对话框

单击Statistics按钮,弹出Explore:Statistics对话框(如图3-11所示),其中有如下选项。

图3-11 Explore:Statistics对话框

Descriptives:输出均值、中位数、众数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误差、偏度系数、偏度系数的标准误差;此处能够设置置信区间,默认为95%(即α=0.05),可根据需要进行调整。

M-estimators:做中心趋势的最大似然确定,输出4个不同权重的最大似然确定数。

Outliers:输出5个最大值与5个最小值。

Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数。

本例选中Descriptives,置信度采用默认设置为95%,单击Continue按钮返回Explore对话框。再单击OK按钮,生成如表3-3所示的数据分析结果。

表3-3 描述性统计分析结果表(Descriptives)

由该表可知,灯泡寿命的样本均值为1490,样本标准差为24.76557,在置信度为95%下灯泡寿命的置信区间为 [1476.8034,1503.1966],即该种灯泡平均使用寿命的置信区间为1476.8034~1503.1966小时。