1.4 随机变量及其分布_管理统计学-QQ阅读都市男生网

书名：管理统计学
作者名：王雪华主编
本章字数：6908字
更新时间：2025-02-26 09:34:59

1.4 随机变量及其分布

概率论是研究随机现象数量规律的数学分支，为了能够更深入地研究这种规律，就需要对随机现象进行定量的数学处理，把随机现象的结果数量化，并掌握这些数量化的结果的取值规律，由此需要引入随机变量与分布函数的概念。

1.4.1 随机变量及其分布函数

1.随机变量与分布函数

对于许多随机现象来说，其结果本身就是以数量的形式出现的，例如，掷一颗骰子可能出现的点数，一天内进入某超市的顾客数，某生产线生产的灯泡的寿命，产品抽样检查中的不合格率等。还有一些随机现象，其结果本身并不是数量的形式，如抛硬币试验，可能出现的结果为“正面朝上”或“反面朝上”，直观上它们与数值并没有直接的对应关系，但是如果将“正面朝上”指定为1，“反面朝上”指定为0，就可以实现结果的数量化了。简单地说，这种随机现象数量化的表现就是随机变量。

定义设随机试验的样本空间为Ω，若对于每个属于Ω的样本点ω，总有一个实数X（ω）与其对应，则称实值函数X=X（ω）为随机变量，常用大写字母X、Y、Z等表示。

随机变量主要可以分为两种类型。对于一个随机变量X，如果它的所有可能取值都能逐个列举出来，则称X为离散型随机变量；如果它的取值不能逐个列举，而是充满数轴上的某一区间，则称X为连续型随机变量。

若要全面地了解随机变量，仅仅知道它能取哪些值是不够的，更重要的是要知道它取这些值的规律，也就是说，需要掌握其概率分布。分布函数是用来刻画随机变量的概率分布的有效工具。

定义设X是一个随机变量，对任意实数x，称函数

为随机变量X的分布函数，记为X～F（x），读作X服从F（x）。

通过分布函数，可以计算与随机变量X有关事件的概率。

以掷骰子试验为例，掷一颗骰子可能出现的点数X为一个随机变量，其可能的取值为1，2，…，6。则事件A“出现的点数小于等于3”可以表示为A={X≤3}，通过分布函数求得A的概率为P（X≤3）=1/2。

2.离散型随机变量及其分布

对于离散型随机变量，由于其所有可能取值可以一一列举出来，因此，对其概率分布定义如下。

定义设X是一个离散型随机变量，并且它的所有可能取值为x1，x2，…，xn，…，则称X取xi的概率

为离散型随机变量X的概率分布，记为X～{pi}。

离散型随机变量的概率分布也可以用表格形式来表示，称为分布列，如表1-4所示。

表1-4 离散型随机变量的分布列

【例1-14】掷两颗骰子，若以 X 记出现的点数之和，试求X的分布列。

解：掷两颗骰子，可能出现的点数的组合为

计算可得X的分布列如表1-5所示。

表1-5 两颗骰子点数之和的分布列

对于离散型随机变量的分布列，根据概率的非负性公理，首先一定有pi≥0。同时，由于x1，x2，…，xn，…构成样本空间的一个完备事件组，因此必有

如果已知离散型随机变量X的分布列，可以很容易地得到X的分布函数：

并且，对于任意实数a，b（a＜b），有

【例1-15】设随机变量X的分布列如表1-6所示。

表1-6 随机变量X的分布列

试求X的分布函数。

解：根据分布列，得到X的分布函数如下：

F（x）的图形呈一条阶梯状的曲线，且取值1，2，3处为跳跃点，其跳跃度分别为0.2，0.3，0.5。如图1-5所示。

图1-5 离散型随机变量的分布函数

由于在求解离散型随机变量X的有关事件的概率时，用分布列比分布函数更方便，因此通常用分布列来描述其分布。

3.连续性随机变量及其分布

与离散型随机变量不同，连续型随机变量的可能取值有无穷不可列个实数，这些实数覆盖数轴上的某一区间甚至整个数轴，因此不能像对离散型随机变量那样，通过分布列来描述其概率分布。在连续型随机变量的概率分布情况时，引入一个新的概念——概率密度函数。

定义设随机变量X的分布函数是F（x），如果存在实数轴上的一个非负可积函数p（x），使得对任意实数x，有

则称X为连续型随机变量，称p（x）为X的概率密度函数，简称密度函数。

与离散型随机变量类似，对于连续型随机变量，其密度函数具有如下两个基本性质。

① 非负性：p（x）≥0。

② 正则性：。

这两条基本性质作为判别某个函数是否为密度函数的充要条件，如果连续型随机变量X的密度函数存在，则对于任意实数a，b（a＜b），有

结合积分的几何意义，则X落在区间（a，b] 上的概率等于曲线y=p（x）在区间（a，b]上与x轴构成的曲边梯形的面积，如图1-6所示。

图1-6 连续型随机变量落在区间（a，b]上的概率

不难得出，离散型随机变量X仅取一点时y=p（x）与x轴所积面积为0，即此时的概率恒为0，因此在计算X落在某一区间上的概率时可以不用计较区间的开闭。

【例1-16】设连续型随机变量X的密度函数为

试求X的分布函数F（x）。

解：由分布函数的定义可得

当x＜-1时，p（x）=0，所以

当-1≤x＜0时，

当0≤x＜1时，

当x≥1时，

综上所述，X的分布函数为

1.4.2 随机变量的数字特征

随机变量的概率分布能够完整地描述随机变量的统计特征，并且据此可以求得与随机变量有关事件的概率。然而，在一些场合中，并不需要了解随机变量的全面情况，而只须从某个侧面考察随机变量的特征。例如，假设某地区成年男子的身高为随机变量X，在统计该地区男子的身高情况时，只须注意男子的平均高度，以及个体的身高与平均身高的偏离程度。这种用数字表示的随机变量的特征称为随机变量的数字特征。

本节将主要介绍随机变量的常用数字特征：数学期望、方差和标准差。

1.数学期望

数学期望表示随机变量所有可能取值的平均水平，记为E（X）或μ。下面，对于离散型随机变量和连续型随机变量，分别给出数学期望的定义和性质。

（1）离散型随机变量的数学期望

定义设离散型随机变量X的所有可能取值为x1，x2，…，xn，…，且X～{pi}，如果

绝对收敛，则称

为随机变量X的数学期望，简称期望；否则，称X的数学期望不存在。

从定义可以看出，求解离散型随机变量X的数学期望，也就是求解X的所有可能取值为x1，x2，…，xn，…关于权p1，p2，…，pn，…的加权平均值。

【例1-17】试求例1-14中随机变量X的数学期望。

解：根据表1-5中的计算结果，计算得到X的数学期望为

（2）连续型随机变量的数学期望

定义设连续型随机变量X的概率密度函数为p（x），如果

绝对收敛，则称

为随机变量X的数学期望，简称期望。同样地，如果级数的收敛条件不成立，则称X的数学期望不存在。

【例1-18】试求例1-16中随机变量X的数学期望。

解：已知X的密度函数为

因此X的数学期望为

（3）数学期望的性质

假定以下所涉及随机变量的数学期望均存在，根据数学期望的定义可以得出下列性质。

性质1 对于任意常数c，有

性质2 对于任意随机变量X和常数a，b，有

性质3 对于任意随机变量X和Y，有

性质4 对于任意随机变量X和Y，若X与Y相互独立，有

2.方差与标准差

随机变量X的数学期望在一定程度上反映了随机变量的集中趋势，它反映了X的取值总在E（X）周围波动，但是却不能反映出这种波动的大小，即X的取值与E（X）的偏离程度。例如，在统计某地区成年男子的身高情况时，不仅要注意男子的平均高度，还要观察个体的身高与平均身高的偏离程度。为了度量这种偏离程度，下面引入方差和标准差的概念。

定义设X是一个随机变量，若E[X-E（X）]2 存在，则称

为随机变量X的方差，称为随机变量X的标准差。

根据定义可知，方差实际上就是随机变量X的取值相对于均值E（X）的偏差平方的数学期望，这是由于偏差X-E（X）的值有正有负，直接相加则会出现正负抵消的现象，因此利用偏差的平方来计算随机变量X的方差，然后对得到的方差开平方，就得到了与数学期望的量纲相同的标准差。

以上是方差的一般定义，结合数学期望的计算公式，针对不同类型的随机变量，有如下结论。

① 对于离散型随机变量 X，如果 X的所有可能取值为 x1，x2，…，xn，…，且X～{pi}，则有

在例1-17中，

② 对于连续型随机变量X，如果X的概率密度函数为p（x），则有

在例1-18中，

③ 方差的性质。若以下随机变量的数学期望和方差均存在，根据方差的定义容易得出下列性质。

性质1 对于任意常数c，有

性质2 对于任意随机变量X和常数a，b，有

性质3 对于任意随机变量X和Y，若X与Y相互独立，有

性质4 对于任意随机变量X，有

1.4.3 常用的离散型分布

在实际问题中，常常会遇到许多不同类型的离散型随机变量，下面就来介绍四种常见的离散型分布。

1.0-1分布

若离散型随机变量X的概率分布为

则称随机变量X服从参数为p的0-1分布，记为X～B（1，p）。0-1分布也称为两点分布或伯努利分布。

例如，从一批产品中任取一个做测试，以X=1记产品是好品，以X=0记产品是废品，若这批产品的合格率为90%，则X服从参数为0.9的0-1分布，记为X～B（1，0.9），其分布列如表1-7所示。

表1-7 0-1分布的分布列

0-1分布的数学期望、方差和标准差分别为

2.二项分布

在处理实际问题时，常常会遇到只有两种可能结果的试验。例如，在产品抽样调查中，随机抽取的某个产品可能是合格品，也可能是废品；在调查新出台的政策是否符合民意时，对参与调查的某个公民来说可能是支持这项政策，也可能是反对这项政策等。在这些问题中，每次试验都只有两种可能出现的结果：事件A发生或事件发生，并且在每次试验中事件A出现的概率都相同，记为p（0＜p＜1），如果将这种只有两种结果的试验在相同条件下重复独立地进行n次，那么这些试验便构成了一个新的试验，称为n重伯努利试验。

若以X记n重伯努利试验事件A出现的次数，X的可能取值为1，2，…，n，则X的概率分布为

在n重伯努利试验中，称事件 A出现的次数 X服从以 n，p为参数的二项分布，记为X～B（n，p）。

二项分布是一种常用的离散分布，特别是当n=1时，k只能取0和1，且P（X=1）=p，P（X=0）=1-p，也就是前面所说的0-1分布。

二项分布的数学期望、方差和标准差分别为

【例1-19】在10件产品中混入了2件次品，现有放回地先后取出3件产品，用随机变量X表示次品数，试求X的分布列、E（X）和D（X）。

解：由于抽样是有放回的，因此每次取出次品的概率都相同，这是一个n重伯努利试验。随机变量X的可能取值为0，1，2，3，且

故X的分布列如表1-8所示。且有

表1-8 产品质量抽样检查中次品数的分布列

3.泊松分布

（1）泊松分布的概率分布

若随机变量X的概率分布为

则称随机变量X服从参数为λ的泊松分布，记为X～P（λ）。

泊松分布是由法国数学家泊松于1937年引入的，其应用十分广泛。在现实问题中，许多随机现象都服从泊松分布，如在单位时间内电话交换台接到的用户呼叫数，1m2内玻璃上的气泡数，单位时间内公共汽车站来到的乘客数等。

泊松分布的数学期望、方差和标准差分别为

【例1-20】假定某航空公司预订票处十分钟内接到订票电话的次数服从参数为7的泊松分布，试求订票处在十分钟内恰好接到6次电话的概率。

解：以随机变量X表示订票处在10分钟内接到订票话的次数，则X～P（7），故

对这个式子直接计算会比较麻烦，可以利用泊松分布表来求解，当k=6，λ=7时

（2）二项分布的泊松近似

泊松分布常常被看成二项分布的近似：在n重伯努利试验中，当试验次数n很大，而事件A“成功”发生的概率p很小时，二项分布可以用λ=np的泊松分布来近似。

【例1-21】已知某种疾病的发病率为0.001，某地区共有5000居民，现有一医疗团队为该地区居民义务会诊，试求该地区患有这种疾病的人数不超过5人的概率。

解：以随机变量X记该地区患有这种疾病的人数，则X～B（5000，0.001），所以有

通过二项分布来求解这个问题计算量是很大的，由于n很大，而p很小，这时可以利用泊松分布来求解

4.超几何分布

在产品检验问题中，常常会遇到采取不放回抽样的情况，例如，对电灯泡寿命的检验和棉纱强度的检验，由此需要引入超几何分布的概念。

设一批产品共有N件，其中有M件不合格品，现从这N件产品中不放回地先后抽取n件，则其中含有的不合格品的个数X服从超几何分布，记为X～H（n，N，M）。超几何分布的概率分布列为

式中，m=min{M，n}，且M≤N，n≤N，n，N，M均为正整数。

超几何分布的数学期望、方差和标准差分别为

特别地，在实际问题中，当抽样的个数远远小于产品的总数时，每次抽样之后总体中的不合格率p=M/N改变甚微，这时，不放回抽样可以近似地看成有放回抽样，因此可以计算二项分布作为近似值。

1.4.4 常用的连续型分布

1.均匀分布

若随机变量X的密度函数为

则称X服从区间（a，b）上的均匀分布，记为X～U（a，b）。

相应地，X的分布函数为

区间（a，b）上的均匀分布如图1-7所示。

图1-7 区间（a，b）上的均匀分布

若随机变量X服从区间（a，b）上的均匀分布，则X在（a，b）中取值落在某一区域内的概率与这个区域的测度成正比。

均匀分布的数学期望、方差和标准差分别为

【例1-22】设随机变量X服从（0，10）上的均匀分布，试求P（3＜x＜7）与P（5＜x≤12）。

解：由X服从（0，10）上的均匀分布可知

因此

2.指数分布

若随机变量X的密度函数为

则称X服从参数为λ的指数分布，记为X～Exp（λ），其中λ＞0。

相应地，X的分布函数为

指数分布常常用于表示各种“寿命”分布，如无线电元件的生命周期、动物的寿命、电话的通话时间、随机服务系统中的服务时间等，都可假定服从指数分布。

指数分布的数学期望、方差和标准差分别为

【例1-23】假设某商店从早晨开始营业起直到第一个顾客到达的等待时间（分钟）服从参数λ=0.4的指数分布，试求等待时间不超过3分钟的概率。

解：根据题意，可知等待时间X的分布函数为

因此，等待时间不超过3分钟的概率为

P（X≤3）=F（3）=1-e-0.4×3=1-e-1.2=0.699

3.正态分布

正态分布是连续型随机变量的一个最重要的分布，它对于统计研究具有十分重要的意义。在自然界和社会经济问题中，许多随机现象都可以用正态分布来描述或近似描述，如测量的误差、炮弹落地点的分布、人的身高和体重、农作物的收获量、年降雨量等都近似服从正态分布。

（1）正态分布的密度函数和分布函数

若随机变量X的密度函数为

则称X服从正态分布，记为X～N（μ，σ2），其中参数-∞＜μ＜+∞，σ＞0。

y=p（x）的图形关于x=μ对称，且在（-∞，μ）单调递增，在（μ，+∞）内单调递减，在x=μ时达到最大值，如图1-8所示。

图1-8 正态分布的密度函数

相应地，X的分布函数为

正态分布的密度函数具有如下性质：

●如果保持σ不变，改变μ的值，则曲线沿x轴平移，而曲线的形状不改变。也就是说正态密度函数在平面直角坐标系的位置是由参数μ确定的。

● 如果保持μ不变，改变σ的值，则曲线随着σ

值的增加而变得平缓，或随着σ值的减小而变得陡峭，而曲线的中心位置保持不变。也就是说正态密度函数的尺度由参数σ所确定。

正态密度函数图形与参数的关系如图1-9所示。

图1-9 正态密度函数图形与参数的关系

正态分布的数学期望、方差和标准差分别为

故正态分布X～N（μ，σ2）通常读为随机变量X服从均值为μ，方差为σ2的正态分布。

（2）标准正态分布

当参数μ=0，σ=1时，正态分布N（0，1）称为标准正态分布。对于标准正态分布，通常用φ（x）表示密度函数，用Φ（x）表示分布函数，故

对于服从标准正态分布的随机变量，可以通过“正态分布表”查得Φ（x），然后通过一定的换算得到所要求解的概率，主要的换算法则有

● Φ（-x）=1-Φ（x）

● P（X＞x）=1-Φ（x）

● P（a＜X＜b）=Φ（b）-Φ（a）

● P（X＜c）=2Φ（c）-1

实际上，恰好服从标准正态分布的随机变量很少，但可以通过一定的线性变换将一般正态分布转化为标准正态分布。对于一般正态分布，进行变换

便可将其转换为标准正态分布Z～N（0，1），这时，就可以借助于正态分布表来求解一般正态分布问题了。

【例1-24】王某家住市区西郊，工作单位位于东郊。王某的上班的路线可以有两种选择：一是横穿市区，这条路线路程较短，但交通堵塞严重，所需时间X～N（30，100）；二是选择环城公路，这条路线路程较远，但堵塞少，所需时间Y～N（40，16）。

① 若距上班时间还有50分钟，应选择哪条路线？

② 若距上班时间还有45分钟，又应选择哪条路线？

解：根据题意，设王某选择第一条路线需要花费的时间为x，选择第二条路线需要花费的时间为y。

① 若距离上班时间还有50分钟，则对于两条路线，王某准时上班的概率分别为

此时选择第二条路线时准时上班的概率大于选择第一条路线，因此应选第二条路线。

② 若距离上班时间还有45分钟，则对于两条路线，王某准时上班的概率分别为

此时选择第一条路线时准时上班的概率大于选择第二条路线，因此应选第一条路线。

（3）3σ原则

如果随机变量X～N（0，1），则

P（X-μ≤σ）=0.6826 P（X-μ≤2σ）=0.9545 P（X-μ≤3σ）=0.9973

显然，尽管正态变量 X的取值范围是（-∞，+∞），但是它的取值有99.73%落在区域（μ-3σ，μ+3σ）内，因此常把在此范围之外的随机变量取值忽略不计，这一性质在统计学上称为3σ原则。3σ原则在实际问题中有许多应用，例如，在工业生产上，一些产品质量指数就是根据3σ原则制定的。

4.χ2分布，t分布，F分布

下面来介绍三种特殊的连续型分布，它们是由若干正态随机变量构成的特殊函数，在参数估计、假设检验等方面具有重要应用。

①设随机变量X1，X2，…，Xn相互独立且都服从N（0，1），则随机变量服从自由度为n的χ2分布，记为Y ～ χ2（n）。

②设随机变量X ～ N（0，1），Y ～ χ2（n），且它们相互独立，则随机变量服从自由度为n的t分布，记为Z ～ t（n）。

③设随机变量X和Y相互独立，且X～χ2（m），Y～χ2（n），则随机变量服从第一自由度为m，第二自由度为n的F分布，记为Z～F（m，n）。