2.3 统计数据的整理
通过统计调查所搜集到的资料,只是一些零碎的、分散的、不系统的初级资料,这些资料只能反映调查单位的个体特征,为了得到总体的综合数量特征,揭示事物发展变化的规律,必须对这些初级资料进行进一步的加工整理。
统计数据整理就是根据统计研究的目的和任务的要求,对统计调查所得到的各项原始资料进行科学的分类和汇总,为统计分析提供准确、系统、条理清晰、能在一定程度上说明总体特征的综合资料的工作过程。统计资料的整理包括统计资料的审核、统计分组、汇总计算、制作统计表和统计图,以及描述统计数据的分布特征等。
为了保证统计资料的质量,在统计整理前必须认真审核。数据的审核主要从数据的完整性和准确性两方面入手。完整性审核主要检查要调查的单位有无遗漏,应调查的项目是否填写齐全,避免不报或漏报现象的发生。准确性审核主要检查所填报的资料是否真实可靠,调查表中各项数据在计算方法、计算结果上有无差错,各指标间的数字是否衔接等。
统计资料通过审核后,可进一步做分组整理。统计分组是数据整理中的一项重要工作,分组的好坏直接关系到统计研究能否得出正确的统计结论。下面将从统计分组开始介绍统计数据整理的相关知识。
2.3.1 统计分组
统计分组是根据统计研究的目的和需要,将统计总体按照某一标志划分为若干类型组。在统计分组过程中应保证各组内统计资料的差异尽可能小,各组间则应有明显的差异,以便进一步运用各种统计方法,研究现象的数量特征,进而正确地认识事物的本质及其规律性。
1.统计分组的作用
统计分组是最基本的统计方法之一,它的作用主要体现在如下三个方面。
(1)划分现象的类型
社会经济现象存在复杂多样的类型,并且不同的类型具有不同的特点和发展规律,因此在研究社会经济现象时,就需要通过统计分组来将这些不同类型的现象区分开来,分别研究。例如,按照生产要素的组合特征,可以将工业企业分为资本密集型、技术密集型和劳动密集型。
(2)研究总体的结构
在划分总体类型的基础上,还可以通过统计分组计算出各类型现象占总体的比重,以进一步说明总体的结构特征和基本性质。例如,瑞典人口学家桑德巴斯在研究人口问题时将人口按年龄标志分为三组,根据各年龄段人口在总人口中所占比重的不同,把人口划分为增长型、静止型和缩减型三类,如表2-1所示。
表2-1 人口构成类型(%)

(3)研究总体现象之间的依存关系
社会经济现象之间往往存在着广泛的相互联系、相互制约的关系,在统计分组的基础上,计算相关指标,可以观察这些现象之间是否存在或存在何种联系。例如,企业销售额与产品广告费、复合肥施肥量与小麦亩产量、家庭月收入与支出等现象之间的依存关系,都可以通过统计分组的方法来研究。
2.统计分组标志的选择
统计分组的关键在于分组标志的选择。分组标志选择正确与否,将直接关系到能否正确地反应总体的性质特征,进而影响统计研究结论的正确性,因此必须按照具体情况选择合适的分组。在选择分组标志时,必须遵循如下原则:
① 选择符合统计研究目的和要求的分组标志。统计总体可以根据多种不同的分组标志来分组,但分组标志的选择必须以统计研究的目的和要求为原则。
② 选择最能反映现象本质特征的分组标志。在统计总体可供选择的分组标志中,不同的分组标志反映不同的总体特征,只有选择那些能够反映统计总体本质特征的标志,才能反映出问题的实质。
③ 要考虑社会经济现象所处的具体历史条件和社会经济发展条件。对于同一社会经济现象,采用某种分组标志进行分组,过去适用但现在不一定适用,别处适用但此处不一定适用,因此,应当视具体情况的不同动态地选择分组标志。
3.统计分组的种类
统计分组可以有如下两种分类方法。
(1)根据分组标志的多少,可以分为简单分组和复合分组
简单分组就是将统计总体按照一个分组标志进行分组,它只反映统计总体某一方面的类型和结构特征。许多简单分组从不同角度说明一个统计总体,就构成了平行分组体系。例如,对某社区居民,可以有如下的平行分组体系。
按性别分组:男、女。
按婚姻情况分组:已婚、未婚。
按年龄分组:18岁以下、18~40岁、40~65岁、65岁以上。
复合分组对同一统计总体运用两个或两个以上分组标志进行层叠方式的分组。复合分组形成复合分组体系。例如,对我国工业企业进行复合分组,形成的复合分组体系如图2-4所示。

图2-4 我国工业企业的复合分组体系
(2)根据分组标志的性质,可以分为品质分组和数量分组
品质分组就是按反映事物属性或质的特征等品质标志进行的分组。例如,人口按性别、民族、文化程度等标志分组,企业按登记注册类型、行业等标志分组。
有些品质分组比较简单,分组标志一经确定,组名和组数也随之确定,例如,将人口按婚姻状况分组,只能分为未婚、已婚两组。然而有些品质分组却较为复杂,不仅类别繁多,而且界限不易划分清楚,这种分组在统计上又称为分类。例如,人口按文化程度分类,工业产品按经济用途分类等。在统计实践中,对于一些重要的品质标志分组,国家统计部门及有关部门制定了分类标准和分类目录,具体规定了各类的名称及代码、分类顺序、计量单位等,作为统计整理的统一依据,如《国民经济行业分类目录》、《工业部门分类目录》、《产品分类目录》等。
数量分组就是按反映事物数量特征的数量标志进行的分组。例如,企业按职工人数、生产能力、固定资产总值等标志分组,职工按年龄、工龄、工资等标志分组。按数量标志分组时,应选择能够反映事物质的差别的数量界限。
2.3.2 频数分布
在统计分组的基础上,将总体所有单位按组归类整理,并按一定的顺序排列,形成说明单位总数在各组分配情况的分布,称为频数分布或分布数列。频数分布是统计分组的一种重要形式,它可以反映总体的结构分布状况和分布特征,这对于统计分析是十分重要的。
频数分布由两部分组成,一部分是按照分组标志分组形成的组别,另一部分是与各组相对应的总体单位数,称为频数或次数。各组频数与总次数的比率称为频率。
1.频数分布数列的分类
按照分组标志的不同,分布数列可分为两种:品质分布数列和变量分布数列。
品质分布数列是按品质标志分组的分布数列,简称品质数列。对于品质数列来讲,如果分组标志选择得好,分组标准定得恰当,则事物质的差异表现得就比较明确。品质数列一般较稳定,通常能够准确地反映总体的分布特征。例如,表2-2为某商店一天内矿泉水销售量按品牌分组的分布数列。
表2-2 不同品牌矿泉水销售量的分布数列

变量分布数列是按可变数量标志分组的分布数列,简称变量数列。下面将重点讨论变量数列的编制。
2.变量数列的编制
变量数列又可分为单项式变量数列和组距式变量数列。
(1)单项式变量数列
在数量标志分组中,如果总体变量是离散型变量,且变量值变动幅度较小,变量值的项数又较少,则可以依次将每一个变量作为一组,这种分组称为单项式分组,形成的分布数列称为单项式变量数列。例如,表2-3为某大学二年级在校人数按年龄分组的单项式分布数列。
表2-3 某大学二年级在校人数按年龄分组的单项式分布数列

由于每个变量值就是一个组,因此单项式变量数列的编制十分简单,只须统计出每个变量值出现的次数及各变量值出现次数占总次数的比重,即频数和频率,最后列表即可。
(2)组距式变量数列
若将总体变量依次划分为几个区间,各个变量值按其大小确定所归并的区间,则这种分组方式称为组距式分组,形成的分布数列称为组距式变量数列,简称组距数列。组距数列适用于变量值个数较多、变动范围较大的资料。
组距数列的编制大致可以分为三步:首先确定组数和组距,然后确定组限,最后计算频数、频率等统计指标。下面介绍关于组距数列的一些基本概念和相应的处理办法。
① 组数和组距。
在组距数列中,用变量值变动的范围来代表距离。编制组距数列时,通常先将数据按大小顺序排列,找出其中的最大数值和最小数值,并用最大数值减去最小数值。总体变量的最大数值与最小数值之差称为全距,每个组上限和下限之间的距离称为组距。在等距分组的前提下,组数等于全距除以组距。可见,组数与组距之间有着密切的联系:组距大则组数少,组距小则组数多,两者的关系成反比。
在具体确定组数和组距时,应力求将总体分布的规律和特点反映出来,使分组能够体现组内资料的同质性和组间资料的差异性,这是统计分组的基本原则。下面引入一种确定组数和组距的经验公式,这一公式是由美国学者斯特杰斯(H.A.Sturges)创建的,称为斯特杰斯经验公式,即


式中,n为组数,N为总体单位数,d为组距,R为全距,xmax和xmin分别为最大变量值和最小变量值。
根据斯特杰斯经验公式,可以得出确定组数的参考标准,如表2-4所示。
表2-4 分组数据参考标准

在实际分组中可以参考上述公式和表格的内容,但不能完全依赖这种分组标准。
② 等距分组和异距分组。
根据组距是否相等,组距数列可以分为等距分组和异距分组。顾名思义,若各组组距相等,则为等距分组,反之为异距分组。两种分组方式相比较而言,等距分组比较简单,各组频数可以直接用于比较,且便于计算,便于绘制统计图表。具体采用哪种分组方式,需要根据总体的分布规律和特点来确定。一般来说,如果总体中变量分布比较均衡,应采用等距分组;如果总体中变量值分布很不均衡,且变动范围大,则采用异距分组。
若采用异距分组,通常对变量分布较密集的区间设置较小的组距,对变量分布较稀疏的区间设置较大的组距。由于异距分组的分布不仅受分配次数的影响,还受各组组距大小的影响,因此,有必要消除不等组距的影响,对每组数据计算其频数密度。频数密度的计算公式为

例如,某地区有83个乡,对每乡农户年均收入采用不等距分组,结果如表2-5所示。
表2-5 某地区83乡农户年均收入表

③ 组限和组中值。
组限是指各组两端的数值。划分组限时,必须满足最小组的下限不能大于最小的变量值,最大组的上限不能小于最大的变量值,即每个单位都各有归属,并且组限应尽可能是引起事物质变的数量界限。在划分离散变量的组限时,相邻组限可以间断;对于连续变量,划分组限时,相邻组的组限必须重叠,统计次数时应遵循“上组限不包括在内”的原则。
在统计分析中,由于组距数列掩盖了组内各变量的实际取值,常用各组的组中值作为该组所有变量的代表值。组中值是各组变量值范围的中点值,其计算方法应根据相邻组的组限是否重合来规定。
当相邻组组限重合时,有

或

当相邻组组限不重合时,有

或

从上面几个式子可以看出,各组变量值分布越均匀,组中值代表各组变量值的代表性就越高,因此,分组时应尽量使组内各变量值分布均匀,以减少计算误差。
在编制组距式变量数列时,有时会在首末两组使用“××以上”或“××以下”这样的组限表示方法,称为开口组。例如,表2-1中就是这种情况。在计算开口组的组中值时,显然不能直接使用上面的式子,通常以相邻组的组距作为本组的组距,并进一步通过上面的式子来计算开口组的组中值。
④ 累计频数和累计频率。
前面已经说过,分布数列由组别和频数组成,并且将频数与总次数相除可以得到表示该组变量值所占比重的频率。但频数和频率只能反映各组变量值出现的次数和所占的比重,而在实践中,往往需要表示出某个变量值以上或以下的总次数和总比重有多少,这时就需要计算累计频数和累计频率了。
累计频数或累计频率可以由变量值小的向变量值大的累计,即向上累计;也可以由变量值大的向变量值小的累计,即向下累计。例如,对表2-3计算累计频数和累计频率,可得到表2-6。
表2-6 某大学二年级在校人数年龄统计表

2.3.3 统计表和统计图
1.统计表
将统计调查搜集到的资料,经过分组、汇总、整理后,按一定的顺序和格式排列在表格内,就形成了统计表。统计表是表现、汇总和积累统计资料的基本手段,能够简明扼要地反映社会经济现象的数量特征及发展变化规律,因此在统计工作和社会经济问题的研究中得到了广泛应用。
(1)统计表的结构
从形式上看,统计表由总标题、分标题和数字资料三部分组成。总标题是统计表的名称,用于简明扼要地说明总体标志性的内容,置于表的正上方。分标题又叫标目,包括横行标题和纵栏标题,分别置于表的左端和上端,用来说明横行与纵栏的内容。数字资料是说明总体数量特征的各项指标数值,是统计表的核心。
从内容上看,统计表包括主词和宾词两部分。主词是统计表所要说明的对象及其组成部分,通常列在表的左端;宾词用来说明主词的各个统计指标及指标数值,通常列在表的右端。
表2-7说明了统计表的构成。

(2)统计表的种类
根据统计表是否分组和分组的程度,可以将统计表分为简单表、分组表和复合表。
简单表是指主词未经过任何分组的统计表。简单表的主词是对总体单位名称或时间名称的排列,通常经过初步整理的原始资料采用这种形式,如表2-8所示。
表2-8 我国人口出生率、死亡率及自然增长率

分组表是指主词只按一个标志进行分组的统计表。利用分组表可以分析不同类型现象的特征,说明现象的内部结构,分析现象之间的依存关系等,如表2-9所示。
表2-9 我国2007年国内生产总值

复合表是指主词按两个或两个以上标志进行分组,且标志重叠排列的统计表。由于复合表能够使用更多标志,因此能够更深入地反映社会经济现象的数量特征和规律,如表2-10所示。
表2-10 我国2007年就业基本状况

(3)统计表的编制规则
在编制统计表时,应注意如下编制规则。
●统计表的标题应简明扼要。总标题应能概括表的基本内容,并标明资料所属的地区和时间;分标题要反映出横行、纵栏的含义。
● 统计表的内容应少而精,使主题突出,一目了然。内容确实较多时,可分设多个统计表。
● 表内分组和指标的排列顺序,要符合内容的逻辑关系。一般按照先局部后整体的原则排列;若无必要列出所有项目,就要先列总体,后列其中一部分重要项目。
● 表中数字应排列整齐,同栏数据要有相同的计量单位和同等的精确度。遇相同数字必须照写,不能用“同上”“同左”等字样;无须填写数字的地方用“—”表示;当缺乏资料时,用省略号表示。
● 表中必须注明数字资料的计量单位。如表中数字使用相同的计量单位,可写在表的右上方;如计量单位不统一,可建立计量单位栏,纵栏的计量单位可与纵栏标题写在一起。
●表的左右两端一般不封口,表的上下两端通常画粗线或双线。纵栏之间要用细线分开,横行之间一般可不必画线。
● 必要时表下可加“注释”,说明表的资料来源、制表人或制表单位、制表日期及其他需要说明的问题。
2.统计图
在统计表的基础上,还可以用几何图形或具体形象图形把统计表中的数字资料直观、形象地展示出来。统计图是展示统计资料的一种重要形式,具有通俗、简单、形象等特点,便于记忆和比较,常用的统计图主要有饼图、条形图、直方图、折线图、曲线图等。
(1)饼图
饼图(Pie Chart)是用圆形及圆内扇形的面积来表示数值大小的图形。饼图主要以圆内扇形面积的大小来表示总体中各组成部分占总体的比重,对于研究结构性问题十分有用。在饼图中,用来表示每个组成部分的扇形面积的大小取决于圆心角,因此在绘制饼图时,各扇形的中心角度是按各部分百分比占360°的相应比例确定的。例如,根据表2-2中的数据,该商店一天内不同品牌矿泉水销售量情况的饼图如图2-5所示。

图2-5 不同品牌矿泉水销售量情况饼图
(2)条形图
条形图(Bar Chart)又称柱形图,是在坐标平面上用宽度相同的条形的高度或长短来表示数据多少的图形,常用来说明品质数列的分布特征。在条形图中,条形及条形之间的宽度相等,条形的高度或长度表示各类别指标值的大小。例如,根据表2-2中的数据,该商店一天内矿泉水销售量分布的条形图如图2-6所示。

图2-6 不同品牌矿泉水销售量分布条形图
当分类变量在不同时间或不同空间上有多个取值时,为对比分类变量的取值在不同时间或不同空间上的差异或变化趋势,可以绘制对比条形图。例如,本章开篇引例中的图2-1和图2-2就是对比条形图。
(3)直方图
直方图(Histogram)又称柱形图,是在坐标平面上以组距为底边,以长方形面积代表各组的次数绘制的一系列条形图,用以直观地说明离散型变量数列的分布特征。当各组的组距相等时,各长方形的高度与频数就成正比例关系,高度就可反映次数。与条形图不同,直方图的各矩形通常是连续排列的。例如,某班级男生身高分布情况如表2-11所示。
表2-11 某班级男生身高分布情况

根据表2-11,可以绘出该班级男生身高分布情况直方图,如图2-7所示。

图2-7 某班级男生身高分布情况直方图
对于不等距分组,由于各组组距不相等,不能直接以频数作为纵坐标,而是以频数密度为纵轴绘制直方图,以准确反映频数分布的特征。
(4)折线图
在直方图的基础上,将每个长方形的顶边中点用折线连接起来,或者直接以组中值作为横坐标、以频数作为纵坐标,得到各坐标点,并依次用线段连接这些坐标点,就形成了频数分布折线图。例如,对表2-11中的数据资料,可以做出折线图,如图2-8所示。

图2-8 某班级男生身高分布折线图
(5)曲线图
当变量数列的变量值非常多时,将各组的组距无限缩小,组数无限增大,折线图便趋于一条平滑的曲线,形成曲线图,也称频数分布曲线。
① 常见的频数分布曲线
在统计实践中,常见的频数分布曲线主要有钟形曲线、U形曲线和J形曲线。
钟形曲线的特点是靠近中间的变量值分布的次数较多,靠近两边的变量值分布的次数较少,整个曲线的形状如同一个倒挂的钟。钟形曲线可以分为正态分布和偏态分布两种。正态分布以标志变量中心为对称轴,左右两侧对称,如图2-9(a)所示;偏态分布为非对称分布,可分为正偏(右偏)分布和负偏(左偏)分布,分别如图2-9(b)(正偏分布)和图2-9(c)(负偏分布)所示。许多社会经济现象趋于或近似趋于正态分布,例如,人的身高、体重,农作物产量及产品的尺寸等。

图2-9 钟形曲线
U形曲线的形状与钟形曲线的形状相反,靠近中间的变量值分布的次数较少,靠近两边的变量值分布的次数较多。人和动物的死亡率按年龄的分布近似服从U形曲线分布,故U形曲线又称为生命曲线,如图2-10所示。

图2-10 U形曲线
J形曲线根据次数随变量的变化情况,可以分为正J形曲线 [如图2-11(a)所示] 和负J形曲线 [如图2-11(b)所示]。次数随变量的增大而增多的为正J形曲线,次数随变量的增大而减少的为负J形曲线。应用较为广泛的是西方经济学中表示供给量和需求量随价格变动的供给曲线(正J形曲线)和需求曲线(负J形曲线)。

图2-11 J形曲线
② 累计频数分布与洛仑兹曲线
除了表示频数分布之外,曲线图还可以表示累计频数分布。著名的洛仑兹曲线就是一个累计频数分布曲线。
洛仑兹曲线是20世纪初由美国经济学家、统计学家洛仑兹提出的,用以描述一个国家或地区收入和财富分配平均程度的曲线,如图2-12所示。

图2-12 洛仑兹曲线
在图2-12中,横轴表示累计的人口百分比,纵轴表示累计的收入或财富百分比,弧线OL为洛仑兹曲线。洛仑兹曲线的弯曲程度反映了收入分配的不平均程度。显然,如果一个国家或地区的收入完全按照人口平均分配,则此时同一累计百分比的人口就一定占有相同累计百分比的财富,这时,洛仑兹曲线为直线OL。洛仑兹曲线的弯曲程度越大,收入分配越不平均,特别是当所有的财富都集中在一人手中,而其余人口一无所有时,收入分配达到完全不平均,这时洛仑兹曲线为折线OHL。
2.3.4 统计数据的分布特征
本节介绍如何整理统计数据,得到对数据本身特征的概括性认识。对于统计数据本身的特征,主要研究统计数据的分布特征,包括分布的集中趋势、离散程度、偏度和峰度等方面。
1.分布集中趋势的测度
由于总体单位中各单位的标志值在客观上存在着差异性,为了反映各单位的一般数量水平,需要将这种数量差异一般化,得到能够反映数量总体分布的集中趋势的综合指标,即平均指标。从不同的角度考虑,平均指标可以有如下几种类别。
(1)众数
众数是总体单位中出现次数最多的标志值,一般用M0表示。众数作为数值一般水平的代表,在社会经济现象的研究中有其独到的一面。例如,为了掌握农贸市场某种商品的价格水平,只须了解该商品在市场上最普遍的成交价格即可。根据变量数列类型的不同,确定众数可以采用不同的方法。
① 对于单项式变量数列,可以通过观察法,将出现次数最多的标志值确定为众数。例如,对于表2-3中的数据,某大学二年级在校人数年龄的众数为19岁。
② 对于组距式变量数列,首先确定次数最多的组为众数组,然后根据下面的近似公式来计算众数:

式中,M0为众数;L为众数组的下限;Δ1为众数组与前一组的次数之差;Δ2为众数组与后一组的次数之差;d为众数组的组距。
例如,对表2-11中的数据,根据式(2-8)计算其众数,为

从分布的角度看,众数是具有明显集中趋势的数值,在正态分布和一般的偏态分布中,分布最高峰点所对应的变量值即为众数。当然,众数也可以不存在、存在两个或更多个取值。
(2)中位数和分位数
将总体单位中各单位标志值按大小顺序排列,处于中间位置的那个标志值就是中位数,一般用Me表示。中位数是从数列的位置上确定的,因此个别极端标志值的变化不会影响中位数的数值。
对于未分组数据计算其中位数时,可以根据中位数的定义,首先对数据进行排序,然后根据公式(n+1)/2确定中位数的位置,在该位置上的标志值就是中位数。
对于已分组数据,根据变量数列类型的不同,有如下确定中位数的方式。
① 对于单项式变量数列,可以先计算出各组的累计频数,然后确定中间位置所在的组,该组的标志值即为中位数。例如,对于表2-3中的数据,某大学二年级在校人数年龄的中位数为19岁。
② 对于组距式变量数列,首先根据累计频数确定中位数组,然后根据下面的近似公式来计算中位数:

式中,N/2为中位数所在位置;L为中位数所在组的下组限;Sm-1为中位数所在组以下各组的累计频数;fm为中位数所在组的频数;d为中位数所在组的组距。
例如,对表2-11中的数据,根据式(2-9)计算其中位数,为

必须说明的是,上述计算公式是以各组数据在组内均匀分布这一假定为条件的,是中位数的近似计算公式。
类似于中位数,还可以引入分位数来将总体单位划分为更多个数量相等的部分,比较常用的分位数有四分位数、十分位数和百分位数。以四分位数为例,四分位数就是将一组数据排序后处于25%和75%位置上的值(由于中间位置上的四分位数就是中位数,所以通常不列入四分位数)。分位数的确定方式同中位数,在这里就不再详述了。
(3)平均数
平均数也称均值,是数据分布集中趋势的主要测度值,主要有如下两种形式。
① 算术平均数。它是一种最常用的平均指标,分为简单平均数与加权平均数两种计算形式。
对于未分组数据,对总体各单位的标志值求和并除以总体单位数,就得到了简单平均数。算术平均数的计算公式为

式中,表示简单平均数;xi(i=1,2,…,n)表示第i个单位的标志值;n表示总体单位总数。
对于已分组的数据的平均数,需要考虑到各组的权值,计算其加权平均数。加权平均数的计算公式为

式中,xi(i=1,2,…,k)表示各组的组中值;fi(i=1,2,…,k)表示各组的频数。
【例2-1】 根据表2-11中的数据,计算该班级男生身高的平均数。
解:求解过程如表2-12所示。
表2-12 某班级男生身高平均数计算表


在通过式(2-11)求加权平均值的时候,假定各组数据在组中均匀分布,以各组的组中值来代表各组的实际数据。因此,如果实际数据与假定相吻合,计算的结果就会比较准确,否则会产生较大的误差。
② 几何平均数。在某些实际问题中,总体各单位的变量值具有整体的衔接性,或连乘积具有实际意义。例如,国内生产总值的平均发展速度。对于这些问题,常常需要求解n个变量值乘积的n次方根,来代表变量值的平均水平,即几何平均数。几何平均数的计算公式为

式中,G表示几何平均数;xi(i=1,2,…,n)表示各期发展速度或各个比率。
【例2-2】 某生产厂家加工一种产品需要经过五道工序,各道工序的合格率分别为95%,98%,90%,92%,93%,试求各工序的平均合格率。
解:由于加工这种产品的合格率为各道工序合格率的连乘积,故应采用几何平均数来计算各工序的平均合格率。

2.分布离散程度的测度
平均指标反映了总体各单位的一般数量水平,从各单位标志值的数量分布中概括出总体的共性,但是不能反映总体中各单位标志值的差异性,而这种差异性又是认识社会经济现象总体所不可或缺的。在研究总体单位标志值的平均水平时,有必要测定各标志值之间的差异性。反映各标志值之间差异程度的指标称为标志变异指标。从不同的角度考虑,标志变异指标有如下几类。
(1)极差与四分位差
极差也称全距,是总体各单位标志值中最大值与最小值之差,一般用R表示。它表示总体各单位标志值的变动范围,是数据离散程度最简单的测度值。极差的计算公式如下:

式中,R表示极差;max(xi)和min(xi)分别表示标志值中的最大值与最小值。
用极差来说明总体各单位标志值的离散程度时,极差越大,说明总体各单位标志值的变动范围越大,其离散程度也就越大,反之则越小。但由于极差只取决于总体各单位标志值的最大和最小两个数值,因此受极端值的影响较大,不能全面反映各单位标志值的变异情况。
四分位差是对极差的一种改进,是指总体单位的两个四分位数之差,其计算公式为

式中,QD表示四分位差;Q3和 Q1分别表示75%位置上的四分位数和25%位置上的四分位数。
相对于极差来说,四分位差反映了总体单位标志值中间50%数据的离散程度,基本不受极端值的影响,但是同样不能全面反映各单位标志值的变异情况。
(2)平均差
平均差是总体各单位标志值与其算术平均数的离差的绝对值的算术平均数,一般用AD表示。之所以取绝对值,是为了避免在计算平均差时,一些标志值的离差出现正负相互抵消的状况而影响计算结果的准确性。
对于未分组数据,平均差的计算公式为

式中,x为简单平均数;xi(i=1,2,…,n)为第i个单位的标志值;n为总体单位总数。
对于已分组数据,平均差的计算公式为

式中,xi(i=1,2,…,k)表示各组的组中值;fi(i=1,2,…,k)表示各组的频数。
平均差反映了总体各单位全部标志值的变异情况,但由于它采取的是计算离差绝对值的计算形式,在数学处理上很不方便,因此在实际中一般不采用这种形式。
(3)方差与标准差
方差是总体中各单位标志值与算术平均数的离差的平方的算术平均数,一般用s表示。
对方差开平方就得到了标准差,也称均方差,一般用σ表示。
对于未分组数据,方差和标准差的计算公式为


式中,表示简单平均数;xi(i=1,2,…,n)表示第i个单位的标志值;n表示总体单位总数。
对于已分组数据,方差和标准差的计算公式为


式中,xi(i=1,2,…,k)表示各组的组中值;fi(i=1,2,…,k)表示各组的频数。
【例2-3】 试求例2-1中该班级男生身高的分布情况的方差与标准差。
解:已知该班男生身高的算术平均数为172.5cm,根据方差和标准差的计算公式,有

方差和标准差是测度分布离散程度的最重要的指标。方差和标准差能够全面地反映各单位标志值的变异情况,并且相对于平均差来说,方差的计算采用了离差平方的形式,这不仅可以消除离差的正负差别,在数学处理上也具有明显的优越性,因此在实际问题中应用较为广泛。
(4)变异系数
前面所介绍的几种指标都是反映标志变异程度的有计量单位的绝对数指标,由于受标志值自身水平和计量单位的影响,对于不同总体进行对比时,不能将这些指标直接用于比较,因而存在一定的局限性。
变异系数用来对不同总体的差异程度进行相对比较。所谓变异系数,就是表示总体离散程度的指标值相对于平均数的比值,也称为离散系数,一般用V表示。常用的变异系数是极差系数和标准差系数,其计算公式如下

变异系数是测度数据离散程度的相对指标,主要用于比较均值不相等或计量单位不统一的若干组数据的离散程度。离散系数越大,说明数据的离散程度越大,集中趋势值的代表性就越小,反之亦然。
【例2-4】 已知在某次考试中,甲、乙两个班级学生成绩的均值和标准差分别为分,σ甲=8.64分;
分,σ乙=8.33分,试比较哪个班级的成绩差异大。
解:由于两个班级学生成绩的平均值不同,因此不能通过直接比较标准差来确定成绩差异性的大小,需要计算标准差系数。求解过程如下:


根据计算结果可知,乙班学生的成绩差异比甲班学生的大。
3.分布偏度与峰度的测度
对于统计总体的分布特征,除了需要了解总体各单位标志值的集中趋势和离散程度外,还需要知道数据分布的形状是否对称、偏斜的程度及分布的扁平程度等特征,即数据分布的偏度和峰度。
(1)偏度
偏度即数据分布相对于正态分布的偏斜方向及程度。偏度系数用来测度数据分布的偏度,一般用SK表示。计算偏度系数的方法很多,这里仅介绍一种对于已分组数据比较常用的计算方法。

式中,xi(i=1,2,…,k)表示各组的组中值;fi(i=1,2,…,k)表示各组的频数。
从式(2-22)可以看出,当分布对称时,离差三次方后正负离差可以相互抵消,即,因此SK=0;当分布不对称时,正负离差不能抵消,就得到了正或负的偏度系数SK。当SK为正值时,表示正偏离差值较大,可以判断为正偏或右偏;反之,则为负偏或左偏。在计算SK时,将离差三次方的平均数除以s3是将偏度系数转化为相对数。SK的数值越大,表示偏斜的程度越大。
(2)峰度
峰度是指频数分布曲线顶端的尖峭或扁平程度。峰度通常是与标准正态分布相比较而言的,峰度系数用来测度频数分布曲线的峰度,一般用K表示。下面针对已分组数据,介绍一种常用的计算方法。

式中,xi(i=1,2,…,k)表示各组的组中值;fi(i=1,2,…,k)表示各组的频数。
式(2-23)中将离差的四次方除以s4是为了将峰度系数转化成相对数。若一频数分布曲线的峰度系数K=0,则该频数分布曲线为标准正态分布;若K的值明显不同于0,则当K>0时为尖峰分布,当K<0时为平峰分布。