- 心理与教育研究中的多元统计方法
- 曹亦薇 张一平
- 1052字
- 2025-02-20 13:27:20
1.6 多元正态分布
正如我们在1.3小节里提及的,多元统计分析属于推论统计的一部分,也需要通过样本统计量的分布来估计、推测总体参数并进行假设检验。因此在本书中,定义多元变量为随机变量,它们具有随机变量的一切性质,并且不同特点的多元变量有着不同的分布规律,例如多元正态分布、多元t分布、多元Gamma分布等;其中应用最广泛、最重要的分布是多元正态分布,它是众多多元分布的基础。本书后面用到的很多检验统计量,它们的分布都与多元正态分布有关。
先回忆一元正态分布的定义,如果连续型随机变量X的概率密度函数为

则称X服从期望为μ、方差为σ2的正态分布,一般记为X~N(μ,σ2)。
正态分布是一族分布(图1.5),其概率密度函数的曲线随着期望与方差的不同而不同。如果将随机变量X标准化为变量Z,则变量Z服从期望为0,标准差为1的标准正态分布,记为Z~N(0,1)。

图1.5 期望与方差不同的正态分布
如果有两个连续型随机变量X和Y服从二元正态分布,它们的联合概率密度函数为

式中

μX与μY分别表示变量X和Y的期望值,σX与σY分别表示变量X和Y的标准差,ρXY表示变量X和Y的相关系数。
图1.6(a)为变量X和Y的相关系数设为0.5条件下,联合概率密度函数z=f(x,y)的三维图。图1.6(b)为图1.6(a)的俯视图,每个椭圆曲线上的概率密度相等。当变量X和Y相互独立(相关系数为0)时,等概率密度曲线为正圆曲线;当变量X和Y完全相关(相关系数为1)时,等概率密度曲线退化为一条直线(图1.6(b)中的虚线)。二元正态分布是二元联合概率分布中最重要的分布。

图1.6 二元正态分布
如果p维随机变量X=(X1,X2,……,Xp)T服从p元正态分布,则联合概率密度函数为

一般记为Np(μ,Σ),其中μ=(μ1,μ2,……,μp)T为p个变量的期望值向量,Σ表示p个随机变量的协方差矩阵,且是p×p阶正定对称矩阵,Σ-1,|Σ|分别为Σ的逆矩阵与行列式值。
根据上面定义的多元正态分布密度函数,在一定的条件下我们可以求出各个部分变量的边缘分布、多元变量的样本平均值分布或者样本协方差的分布等。
在许多关于多元统计分析的经典书籍里,上述的内容往往置于书本的第1章,因为这些知识是推导多元统计方法的基础。但考虑到本书的使用对象主要是心理学、教育学等社会科学领域的学生或工作者,学习目的主要是为了正确应用多元统计方法。我们认为掌握了最基本的概念之后直接学习分析方法是可行的,相关的概率与统计理论知识可以在达到更高水平以后再继续领会。因此本书中有关多元分布的知识不再展开,有需要的读者可以参考相关的书籍(Anderson,2003)。