多元统计分析-第三章 多元正态分布
第三讲多元正态分布
二元正态分布的密度曲面图
2 2 下图是当 1 2 , 0.75 时二元正态分布的钟形密
度曲面图。
多元正态分布性质
(1)、若 X ( X1, X 2 , X p )T ~ N p (, ), 是对角阵, 则 X1, X 2 , X p 相互独立。 (2)、若 X ~ N p (, ) , A 为 s p 阶常数阵,则
•有些现象服从多元正态分布
•许多多元统计分布的抽样分布是近似正态分布
23
多元正态分布
它是一元正态分布的推广
X ~ N p ,
设随机向量 X ( x1 , x2 ,, x p )' 服从P维正态分布,则有,
f ( X ) 2
p 2
1 2
1 1 exp x x 2
12
随机向量的数字特性
随机向量的均值
E ( X 1 ) 1 E( X 2 ) 2 E( X ) E( X ) p p
性质
E ( AX ) AE( X ) E ( AXB) AE( X ) B E ( AX BY ) AE( X ) BE(Y )
15
性质
1)若(x1,x2,…,xp)’ 和(y1,y2,…,yq)’不相关。则
cov(x1 , y1 ) cov(x1 , y2 ) cov(x1 , yq ) cov(x2 , y1 ) cov(x2 , y2 ) cov(x2 , yq ) 0 cov(x , y ) cov(x , y ) cov(x , y ) p 1 p 2 p q
(1) q
多元统计分析-第三章多元正态分布
多元统计分析-第三章多元正态分布第三章多元正态分布多元正态分布是⼀元正态分布在多元情形下的直接推⼴,⼀元正态分布在统计学理论和应⽤⽅⾯有着⼗分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。
多元分析中的许多理论都是建⽴在多元正态分布基础上的,要学好多元统计分析,⾸先要熟悉多元正态分布及其性质。
第⼀节⼀元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在⼀起组成的随机矩阵,学习多元统计分析,⾸先要对随机向量和随机矩阵有所把握,为了学习的⽅便,先对⼀元统计分析中的有关概念和性质加以复习,并在此基础上推⼴给出多元统计分析中相应的概念和性质。
⼀、随机变量及概率分布函数(⼀)随机变量随机变量是随机事件的数量表现,可⽤X 、Y 等表⽰。
随机变量X 有两个特点:⼀是取值的随机性,即事先不能够确定X 取哪个数值;⼆是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。
(⼆)随机变量的概率分布函数随机变量X 的概率分布函数,简称为分布函数,其定义为:)()(x X P x F ≤=随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。
1、离散型随机变量的概率分布若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。
设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,记为k k p x X P ==)(( ,2,1=k )称k k p x XP ==)(( ,2,1=k )为离散型随机变量X 的概率分布。
离散型随机变量的概率分布具有两个性质:(1)0≥k p , ,2,1=k(2)11=∑∞=k kp2、连续型随机变量的概率分布若随机变量X 的分布函数可以表⽰为dt t f x F x∞-=)()(对⼀切R x ∈都成⽴,则称X 为连续型随机变量,称)(x f 为X 的概率分布密度函数,简称为概率密度或密度函数。
多元统计分析第三章假设检验与方差分析
多元统计分析第三章假设检验与⽅差分析第3章多元正态总体的假设检验与⽅差分析从本章开始,我们开始转⼊多元统计⽅法和统计模型的学习。
统计学分析处理的对象是带有随机性的数据。
按照随机排列、重复、局部控制、正交等原则设计⼀个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进⾏统计推断,是⾃然科学和⼯程技术领域常⽤的⼀种研究⽅法。
由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论⽅法研究的出发点。
所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要⽤概率来表明其可靠程度。
统计推断的任务是“观察现象,提取信息,建⽴模型,作出推断”。
统计推断有参数估计和假设检验两⼤类问题,其统计推断⽬的不同。
参数估计问题回答诸如“未知参数θ的值有多⼤?”之类的问题,⽽假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。
本章主要讨论多元正态总体的假设检验⽅法及其实际应⽤,我们将对⼀元正态总体情形作⼀简单回顾,然后将介绍单个总体均值的推断,两个总体均值的⽐较推断,多个总体均值的⽐较检验和协⽅差阵的推断等。
3.1⼀元正态总体情形的回顾⼀、假设检验在假设检验问题中通常有两个统计假设(简称假设),⼀个作为原假设(或称零假设),另⼀个作为备择假设(或称对⽴假设),分别记为0H 和1H 。
1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来⾃总体),(2σµN 的样本,我们要检验假设100:,:µµµµ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有⼀个正确。
备择假设的意思是,⼀旦否定原假设0H ,我们就选择已准备的假设1H 。
当2σ已知时,⽤统计量nX z σµ-=在原假设0H 成⽴下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。
多元统计分析:第三章 多元正态总体参数的假设检验(补充)
第三章 多元正态总体参数的假设检验
所涉及的最大似然估计量—单个总体
ˆ X时 (4) 当 0 (0 0巳知)时, 取 似然函数达最大值:
L( X , 0 ) 2
np 2
0
n 2
n 1 etr - 0 A 2
19
第三章 多元正态总体参数的假设检验
15
第三章 多元正态总体参数的假设检验
所涉及的最大似然估计量—单个总体
单个p维正态总体Np(μ,Σ),设X(i)(i=1,…,n)为来自p 维总体的随机样本.样本的似然函数为
L( , ) 2
np 2
1 ˆ A时, 似然函数达最大值 : ˆ X , (1)当 n n np A 2 A np L( X , ) 2 2 exp - n n 2
9
第三章 多元正态总体参数的假设检验
§3.6正态性检验--p维数据的正态性检验
D2(1)≤ D2(2) ≤…≤ D2(n) 统计量 D2 的经验分布函数取为
.
其中H(D2(t) |p)表示χ2 (p)的分布函数在D2(t)的值. 设χ2 分布的pt分位数为χt2 ,显然χt2满足: H(χt 2 |p)= pt. 即χ2 分布的pt 分位数χt2 =H-1(pt |p). 由经验分布得到样本的pt 分位数D2(t)=Fn-1(pt ). 若H(x|p)≌Fn(x),应有D2(t) ≌ χt2 ,绘制点(D2(t) , χt2 )的散 布图,当X为正态总体时,这些点应散布在一条直线上. 10
(1) (1) ( 2) ( 2)
np 2
A1 A2 n
(t )
np 2 2
e
X )( X
《多元正态分布》课件
度概率密度函数的乘积。
高维正态分布在机器学习中的应用
降维处理
高维正态分布可以用于降维处理,通过保留数据的主要特征,降低 数据的维度,提高数据的可解释性和处理效率。
特征选择
高维正态分布可以用于特征选择,通过分析特征之间的相关性,选 择与目标变量高度相关的特征,去除冗余和无关的特征。
概率模型
高维正态分布可以用于构建概率模型,通过估计数据的概率分布, 进行分类、回归和聚类等机器学习任务。
总结词
检验多元正态分布的协方差矩阵是否与预期 协方差矩阵一致。
详细描述
通过对比样本协方差矩阵与预期协方差矩阵 ,评估样本数据是否符合多元正态分布的假 设。常用的方法包括样本协方差矩阵与预期 协方差矩阵的差异检验、样本数据的散点图 和拟合曲线分析等。
多元正态分布的其他假设检验方法
总结词
其他用于检验多元正态分布的方法。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
02
二元正态分布
二元正态分布的定义
总结词
二元正态分布是多元正态分布在两个维度上的特例,其概率密度函数呈钟形, 且服从二维高斯分布。
详细描述
二元正态分布是一种连续概率分布,描述了两个随机变量之间的关系,当这两 个随机变量相互独立时,其联合概率分布是二元正态分布。它的概率密度函数 由均值向量和协方差矩阵决定,呈现出钟形曲线。
多元正态分布的均值向量和协方差矩阵决定了其 分布形态。
多元正态分布的应用场景
多元统计分析
多元正态分布在多元统计分析中 广泛应用,如主成分分析、因子 分析、聚类分析等。
机器学习
在机器学习中,多元正态分布用 于描述特征之间的相关性,以及 在隐含层节点中实现特征的映射 。
多元正态分布
多元正态分布正态分布,又称为高斯分布,是概率论与统计学中最为重要的概率分布之一。
正态分布的特点是其概率密度函数呈现出钟形曲线的形状,可以描述大多数自然现象中的分布情况。
本文的主要目的是介绍正态分布的定义、性质和应用,并对其多元形式进行讨论。
一、正态分布的定义和性质正态分布的定义如下:设X是一个连续型随机变量,如果它的概率密度函数为f(x) = (1/√(2πσ^2)) * exp(-(x-μ)^2/(2σ^2))其中μ为均值,σ^2为方差,exp为自然指数函数,那么称X服从参数为(μ,σ^2)的正态分布,记作X~N(μ,σ^2)。
正态分布的性质如下:1. 正态分布是一个对称分布,其均值、中位数和众数都重合,位于分布的中心。
2. 正态分布的曲线在均值两侧呈现对称性,标准差决定了曲线的宽度,标准差越小,曲线越陡峭,反之越平缓。
3. 正态分布的累积分布函数可用标准正态分布的累积分布函数来计算。
4. 正态分布的随机变量相加仍然服从正态分布。
二、正态分布的应用正态分布在各个领域中都有广泛的应用,以下列举几个常见的应用场景。
1. 自然科学:正态分布常被用来描述测量误差、物理实验结果和自然现象。
例如,在物理实验中测量的误差往往服从正态分布。
2. 金融领域:正态分布被广泛应用于金融领域的风险管理和股票价格预测中。
基于正态分布的投资组合理论和资产定价模型是金融领域中的重要工具之一。
3. 质量控制:正态分布被应用于质量控制中,用于确定产品的标准差、设定合适的控制上限和下限,从而判断产品是否合格。
4. 社会科学:正态分布在社会科学领域的人口统计、心理学实验和经济学研究中得到广泛应用。
例如,身高、体重等指标的分布往往服从正态分布。
三、多元正态分布多元正态分布是正态分布的一种拓展形式,用于描述多个随机变量之间的相关性。
多元正态分布的定义如下:设X = (X1,X2,...,Xn)是一个n维随机向量,如果它的概率密度函数为f(x) = (1/√((2π)^n|Σ|)) * exp(-1/2(x-μ)Σ^(-1)(x-μ)^T)其中x = (x1,x2,...,xn),μ = (μ1,μ2,...,μn)为均值向量,Σ为协方差矩阵,|Σ|为协方差矩阵的行列式,exp为自然指数函数,Σ^(-1)表示Σ的逆矩阵,那么称X服从参数为(μ,Σ)的多元正态分布,记作X~N(μ,Σ)。
多元统计分析多元正态分布
因子分析可以用于数据的降维、分类和解释变量之间的复杂关系。
03
04
多元正态分布的聚类分析
K-means聚类
一种无监督的机器学习算法,通过迭代过程将数据划分为K个集群,使得每个数据点与其所在集群的中心点之间的平方距离之和最小。
总结词
K-means聚类是一种常见的聚类分析方法,其基本思想是:通过迭代过程将数据划分为K个集群,使得每个数据点与其所在集群的中心点之间的平方距离之和最小。具体步骤包括:随机选择K个中心点,将每个数据点分配给最近的中心点所在的集群,然后重新计算每个集群的中心点,并重复此过程直到中心点不再发生变化或达到预设的迭代次数。
定义与性质
性质
定义
均值向量
描述多元正态分布的期望值,表示分布的中心位置。
协方差矩阵
描述多元正态分布的各变量之间的方差和协方差,表示分布的散布程度和变量间的相关性。
维数
描述多元正态分布中随机变量的个数,不同维数的多元正态分布具有不同的形态和性质。
多元正态分布的参数
统计分析
多元正态分布在统计分析中广泛应用,如回归分析、因子分析、聚类分析等。
KNN分类
06
多元正态分布的可视化技术
总结词
主成分分析(PCA)是一种常用的多元统计分析方法,用于降维和数据可视化。
总结词
PCA可视化能够揭示数据中的模式和趋势,帮助我们理解数据的内在结构和关系。
详细描述
通过将数据投影到主成分上,我们可以将高维数据可视化为一组二维或三维图形,从而更直观地观察数据的分布、中心、离群值和聚类等特征。
逻辑回归分类
VS
支持向量机(SVM)是一种有监督学习算法,用于解决分类问题。在多元正态分布的背景下,支持向量机通过找到能够将不同类别的数据点最大化分隔的决策边界来实现分类。
厦门大学《应用多元统计分析》习题第03章 多元正态分布均值向量和协差阵的检验
3
2
50.5
2.25
53
2.25
3
51
2.5
51.5
2.5
4
56.5
3.5
51
3
5
52
3
51
3
6
76
9.5
77
7.5
7
80
9
77
10
8
74
9.5
77
9.5
9
80
9
74
9
10
76
8
73
7.5
11
96
13.5
91
12
12
97
14
91
13
13
99
16
94
15
14
92
11
92
12
15
94
15
91
12.5
3.6 1992 年美国总统选举的三位候选人为布什、佩罗特和克林顿。从支
持三位候选人的选民中分别抽取了 20 人,登记他们的年龄段( x1 )、受教育
程度( x2 )和性别( x3 )资料如下表所示:
投票人
x1
x2
x3
投票人
x1
x2
x3
布什
2
1
2
1
1
11
1
1
2
2
1
3
2
12
4
1
2
3
3
3
1
13
4
0
2
4
1
3
2
14
3
4
2
5
3
1
多元正态分布
混合模型
除了高斯混合模型,还有其他类 型的混合模型,如多项式混合模 型、泊松混合模型等。
扩展应用领域
多元正态分布在许多领域都有广 泛的应用,如心理学、经济学、 生物统计学等。
THANKS
感谢观看
02
联合分布的均值向量和协方差矩阵由各个分量的均 值和协方差决定。
03
当各分量之间相互独立时,其联合分布的协方差矩 阵为各分量协方差矩阵的线性组合。
04
多元正态分布的推断
参数估计
最大似然估计
01
通过最大化样本数据的似然函数来估计多元正态分布的参数,
包括均值向量和协方差矩阵。
最小二乘估计
02
将多元正态分布的均值向量作为回归系数,利用最小二乘法进
多元正态分布
• 多元正态分布概述 • 多元正态分布的参数 • 多元正态分布的性质 • 多元正态分布的推断 • 多元正态分布在统计和机器学习中的
应用 • 多元正态分布的扩展和变种
01
多元正态分布概述
定义与性质
定义
多元正态分布是多个连续随机变量的 概率分布,其概率密度函数是多元高 斯函数。
性质
多元正态分布具有旋转对称性、椭球 等高性、边缘分布的独立性和最大熵 等性质。
当其他维度固定时,该维度的边缘分 布是关于均值对称的,且方差与该维 度与其他维度的协方差成正比。
随机变量的线性变换
对于多元正态分布的随机变量,对其 进行线性变换后,新变量的分布仍然 是多元正态分布。
线性变换包括平移、旋转、缩放等, 这些变换不会改变变量的分布形态。
随机向量的联合分布
01
对于多元正态分布的随机向量,其各分量之间的联 合分布也是正态分布。
06
第三章多元正态分布-
则S将是Σ的一个无偏估计,即有E(S)=Σ。
§3.5 x 和(n − 1)S的抽样分布
❖ 一、 x
的抽样分布
❖ 二、 (n − 1)S的抽样分布
THANK YOU
感谢观赏
§3.2 多元正态分布的性质
(5)设x1,x2, ⋯,xn相互独立,且xi~N p (μi, Σi) ,
i=1,2,⋯,n,则对任意n个常数,有
n
n
n
2
k
N
k
k
ix
i
p
iμ
i,
iΣ
i
i
1
i
1
i1
➢ 此性质表明,独立的多元正态变量(维数相同)的
任意线性组合仍为多元正态变量。
第三章多元正态分布-
•
•
•
二元正态分布的密度等高线族
(使用SAS/INSIGHT,由10000个二维随机数生成)
y
0
0
-2
0
x
2
-2
0
2
x
4
§3.2 多元正态分布的性质
*(1)略。
❖ (2)设x是一个p维随机向量,则x服从多元正态分
布,当且仅当它的任何线性函数a x 均服从一元正态
述性质(2)或(3)知,
a
xN
a
μ
,
a
Σ
a
❖
(4)设x~Np (μ, Σ),则x的任何子向量也服从(多
元)正态分布,其均值为μ的相应子向量,协方差
矩阵为Σ的相应子矩阵。
该性质说明了多元正态分布的任何边缘分布仍为
多元正态分布
1
n1
n
)
X
二、多元正态总体的最大似然估计及其性质
利用最大似然法求出 μ和 的最大似然估计为:
μˆ X
ˆ 1S n
求解过程
似然函数为:
L (, ) f(x ( 1 ))f(x (2 )) f(x (n ))
n (2) p2 1 2ex 1 (x p [) 1 (x)]
2
22 n
(引理:设A为p阶正定矩阵,则 tr(A)lnAp 当A=I
等号成立。
A1/2S n1/2Ip时等号成 立 n S ,即
最大似然估计的性质
1. E(X)μ ,即 X 是 μ的无偏估计 。
E(1nS)nn1,即
1S n
不是 的无偏估计。
E( 1 S) n1
样本均值向量可以用样本矩阵表示出来,即
X
p 1
1 n
X
1 n
1n (1,1, ,1)
因为:
X 11
1 n
X 1n
1 n
X
12
X
1n
X 21 X 22
X 2n
X p1 X p2
X pn
1 1
n
独立同分布于 Np(μ,), 则随机矩阵 W (i)(i) 服从自由度
为n的非中心维斯特分布,记为
i1
W~Wp(n,,μ)
随机矩阵的分布:
X11 X12 X1p
X
X21
X22
X2p
多元统计分析多元正态分布与协方差矩阵的公式整理
多元统计分析多元正态分布与协方差矩阵的公式整理多元统计分析是指研究多个变量之间相互关系的统计方法。
在多元统计分析中,多元正态分布和协方差矩阵是基础且重要的概念和工具。
它们在众多的多元统计方法中起到了至关重要的作用。
本文将对多元正态分布和协方差矩阵的公式进行整理和说明。
一、多元正态分布多元正态分布是多元统计分析的核心概念之一。
它是一种多变量随机向量服从正态分布的情况。
在多元正态分布中,以向量形式表示的随机变量服从一个满足以下条件的正态分布,即多元正态分布。
多元正态分布的概率密度函数如下所示:f(x) = (2π)^(-p/2)|Σ|^(-1/2)exp(-1/2(x-μ)^TΣ^(-1)(x-μ))其中,f(x)表示多元正态分布的概率密度函数,x为随机向量,p为随机向量的维度,μ为均值向量,Σ为协方差矩阵,^T表示转置,^(-1)表示逆矩阵,|Σ|表示协方差矩阵的行列式。
二、协方差矩阵协方差矩阵是多元统计分析中描述多个变量之间相关关系的重要工具。
它衡量了各个变量之间的线性相关程度和方向。
协方差矩阵的公式如下:Σ = [σ_1^2, σ_12, σ_13, ..., σ_1p][σ_21, σ_2^2, σ_23, ..., σ_2p][σ_31, σ_32, σ_3^2, ..., σ_3p][..., ..., ..., ..., ...][σ_p1, σ_p2, σ_p3, ..., σ_p^2]其中,Σ是一个p行p列的矩阵,表示共有p个变量,σ_ij表示第i个变量与第j个变量的协方差。
协方差矩阵具有以下性质:1. 协方差矩阵是一个对称矩阵,即σ_ij=σ_ji。
2. 协方差矩阵的对角线元素是各个变量的方差,即σ_ii是第i个变量的方差。
3. 协方差矩阵的非对角线元素是各个变量之间的协方差。
协方差矩阵的逆矩阵被称为精度矩阵,表示各个变量之间的精确度。
三、公式整理在多元统计分析中,多元正态分布和协方差矩阵的公式是相互关联的。
厦门大学《应用多元统计分析》习题第03章 多元正态分布均值向量和协差阵的检验
1
4
4
1
2
14
2
1
2
5
2
3
2
15
4
1
1
6
4
0
2
16
2
2
1
7
3
2
1
17
3
3
1
8
4
0
1
18
3
2
2
9
2
1
1
19
3
1
1
10
3
1
2
20
4
0
2
假定三组都服从多元正态分布,检验这三组的总体均值是否有显著性差异
(α = 0.05 )。
3.7 某医生观察了 16 名正常人的 24 小时动态心电图,分析出早晨 3 个小
2 LF HF 4.29 3.03 4.69 4.77 5.28 4.41 5.05 3.28 4.94 3.56 4.54 3.28 4.26 3.11 5.56 5.36
3 LF HF 4.77 3.57 4.58 3.04 5.37 4.79 4.65 2.86 4.68 3.97 4.61 4.40 5.27 3.88 5.55 5.00
3 LF HF 4.16 2.70 3.30 3.10 4.64 3.87 5.54 4.89 5.21 3.88 5.26 3.84 5.43 4.50 4.57 2.32
3.8 根据习题 3.5 中的数据,检验男性婴幼儿与女性婴幼儿的协差阵是否
相等(α = 0.05 )。
3.9 根 据 习 题 3.6 中 的 数 据 , 检 验 三 位 候 选 人 的 协 差 阵 是 否 相 等
多元正态分布均值向量和协差阵的检验
2
在一元统计中,若 t ~ t (n 1) 分布, 2 则 t ~ F (1, n 1) 分布,即把t分布转化为F分 布来处理,在多元统计分析中统计量也有类 似的性质。
定理1:设X ~ N p (0, ), S ~ W p (n, ),且X与S相互独立, 令 T 2 nX T S 1 X n p 1 2 则 T ~ F ( p, n p 1) np
其中,T 2 (n 1)[ n ( X 0 )T S 1 n ( X 0 )] 再由样本值计算出 F,比较 若F F,则拒绝H 0,否则,接受H 0。
给定检验水平,查F分布表,使PF F =,确定出临界值 F。
在处理实际问题时,单一变量的检验和多变量的检 验可以联合使用,多元的检验具有概括和全面的特点, 而一元的检验容易发现各变量之间的关系和差异,能给 人们提供更多的统计分析的信息。
这个公式在后面检验中经常用到。
2、一个正态总体均值向量的假设检验
设X ,X ,,X 来自于p维正态总体N p ( , ),容量为n的样本,n p,且 (1) (2) (n) 1 n X= X i , n i 1 S ( X i X )( X i X )T
i 1 n
而 故
Y n ( X 0 ) ~ N p (0, )
T02 n( X 0 )T 1( X 0 ) ~ 2 ( p)
(2)协差阵未知时,均值向量的检 验 H 0:=( H1: 1 0 0为已知向量), 假设H 0成立,检验统计量为 F (n 1) p 1 2 T ~ F ( p, n p ) (n 1) p
• 例1:对某地区农村的6名2周岁男婴的身高、胸围、上半 臂围进行测量,得样本数据如表所示:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 多元正态分布多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。
多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。
第一节 一元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。
一、随机变量及概率分布函数 (一)随机变量随机变量是随机事件的数量表现,可用X 、Y 等表示。
随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。
(二)随机变量的概率分布函数随机变量X 的概率分布函数,简称为分布函数,其定义为:)()(x X P x F ≤=随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。
1、离散型随机变量的概率分布若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。
设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,记为k k p x X P ==)(( ,2,1=k )称k k p x XP ==)(( ,2,1=k )为离散型随机变量X 的概率分布。
离散型随机变量的概率分布具有两个性质: (1)0≥k p , ,2,1=k(2)11=∑∞=k k p2、连续型随机变量的概率分布若随机变量X 的分布函数可以表示为dt t f x F x⎰∞-=)()(对一切R x ∈都成立,则称X 为连续型随机变量,称)(x f 为X 的概率分布密度函数,简称为概率密度或密度函数。
连续型随机变量的概率密度函数具有两个性质:(1)0)(≥x f(2)1)(=⎰∞∞-dx x f二、随机变量的数字特征(一)离散型随机变量的数字特征若X 为离散型随机变量,其概率分布为),2,1()( ===k p x X P k k ,则X 的数学期望(或称均值)和方差分别定义为:∑∞===1)(k k k p x X E μ[]()∑∞=-=-===1222)()()(k k k p x X E X E X Var X D μσ(二)连续型随机变量的数字特征 若X 为连续型随机变量,其密度函数为)(x f ,则X 的数学期望和方差分别定义为:⎰∞∞-==)()()(x d x xf X E μ()dx x f x X Var X D )()()(22⎰∞∞--===μσ方差的一个简便计算公式为222)]([)(X E X E -=σ(三)数学期望的数学性质1、设c 是常数,则c c E =)(2、设X 是随机变量,c 是常数,则)()(X cE cX E =3、设X 、Y 是任意两个随机变量,则)()()(Y E X E Y XE +=+4、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y E X E XY E =(四)方差的数学性质 1、设c 是常数,则0)(=c D2、设X 是随机变量,c 是常数,则)()(2X D ccX D =3、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y D X D Y X D +=+三、一些重要的一元分布 1、二项分布重复进行n 次相互独立的试验,若每次实验仅有两个可能结果,每次实验成功的概率均为p ,设X 为n 次独立实验中成功出现的次数,则离散型随机变量X 的分布律为:kn k p p k n k X P --⎪⎪⎭⎫ ⎝⎛==)1()(, n k ;,2,1,0 = 其中,p q p -=<<1,10,n 为自然数,称X 服从二项分布。
二项分布中np X E =)(,方差为)1()(2p np X Var -==σ。
2、超几何分布若N 个产品中有M 个不合格品,从N 中随机不放回地抽取n 个进行调查,X 为出现的不合格品数,则离散型随机变量X 的分布律为:⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛--⎪⎪⎭⎫ ⎝⎛==n N k n M N k M k X P )(,),min(,,2,1,0M n k =则称X 服从超几何分布。
当N 很大,n 相对较少时,超几何分布近似于二项分布。
3、泊松分布若离散型随机变量X 的分布律为:!)(k e k X P k λλ-==, ,2,1,0=k其中0>λ,则称X 服从泊松分布。
泊松分布中λ=)(X E ,λσ==)(2X Var 。
在np =λ恒定的条件下,当n 趋于无穷,p 趋于零时,二项分布趋向于泊松分布。
4、正态分布若连续型随机变量X 的概率密度函数为:⎭⎬⎫⎩⎨⎧--=222)(exp 21)(σμσπx x f ,∞><∞-x 则称X 服从正态分布,记作),(~2σμN X ,其中参数μ、2σ分别是随机变量X 的数学期望和方差。
当0=μ,12=σ时,随机变量X 的分布为标准正态分布。
当n 很大,p 和q 都不太大时,二项分布可用正态分布近似计算。
5、卡方分布设随机变量n X X X ,,,21 皆服从)1,0(N ,且相互独立,则其平方和∑=ni i X 12所服从的分布称为卡方分布,记为:)(~2n X χ,n 为自由度,表示平方和∑=ni i X 12中独立随机变量的个数。
6、t 分布设随机变量)1,0(~N X,)(~2n Y χ,且X 与Y 相互独立,则随机变量nY X t =的分布称为t 分布。
记为)(~n t t ,n 为自由度。
随着自由度n 趋向于无穷大,t 分布以标准正态分布为极限。
7、F 分布 设随机变量)(~2n Xχ,)(~2m Y χ,且X 与Y 相互独立,则随机变量mY n X F =服从第一自由度为n 、第二自由度为m 的F 分布,记为),(~m n F F 。
第二节 多元统计分析中的基本概念在社会、经济及自然科学等许多领域,常常需要同时研究多个指标,例如,要研究上市公司的盈利状况,就涉及到公司的主营业务利润、营业利润、利润总额和净利润等总量指标,主营业务利润率、经营净利率、资产利润率、资产净利率、净资产收益率、总资产报酬率等相对指标,每股收益、加权每股收益等平均指标。
这些变量都是随机变量,随机变量之间往往存在一定的联系,因而需要把这些随机变量作为一个整体来研究。
一、随机向量及概率分布 (一)随机向量设有p 个随机变量p X X X ,,,21 ,且它们之间有一定的联系,这些随机变量组成的整体就是随机向量,记为()'=p X X X X ,,,21 。
在多元统计分析中,仍将所研究对象的全体称为总体,它是由许多个体构成的集合,如果构成总体中的个体是有p 个观测指标的个体,称这样的总体为p 维总体,或p 元总体。
由于从p 维总体中随机抽到一个个体,其p 个指标观测值不能事先精确知道,它依赖于被抽到的个体,因此,p 维总体可用p 维随机向量来表示,这里的维或元表示共有几个分量。
(二)随机向量的概率分布 设()'=pX X X X ,,,21 是p 维随机向量,它的多元概率分布函数定义为:),,,(),,,()(221121p p p x X x X x X P x x x F x F ≤≤≤== ,记为)(~x F X ,其中:()p p R x x x x∈=,,,21 ,p R 表示p 维空间。
1、离散型随机向量的概率分布 定义3.1:若()'=p X X X X ,,,21 是p 维随机向量,若存在有限个或可列个p 维数向量,,,21 x x 记k k p x X P ==)(( ,2,1=k ),且满足121=++ p p ,则称X 为离散型随机向量,并称k k p x XP ==)(( ,2,1=k )为离散型随机向量X 的概率分布。
2、连续型随机向量的概率分布 定义3.2:设()p x x x F x F X ,,,)(~21 =,若存在一个非负函数()p x x x f ,,,21 ,使得()()p xxp p dt dt dt t t t f x x x F x F p2121211,,,,,,)(⎰⎰∞-∞-==对一切()p p R x x x x∈= ,,21都成立,则称X 为连续型随机向量,称()p x x x f ,,,21 为分布密度函数。
一个p 维变量的函数()p x x x f ,,,21 能作为p R 中某个随机向量的分布密度函数,当且仅当(1)0),,(21≥p x x x f ,()p p R x x x ∈'∀,,,21(2)()⎰⎰∞∞-∞∞-=1,,,2121p p dx dx dx x x x f例3.1:试证函数⎩⎨⎧=+-0),()(2121x x e x x f , 其它,0021≥≥x x为随机向量()'=21,X X X的密度函数。
证:只要验证函数满足密度函数的两个条件即可。
(1) 显然,0),(21≥x x f(2)()⎰⎰⎰⎰∞∞+-∞∞-∞∞-=0021)(212121,dx dx e dx dx x x f x x⎰⎰∞∞+-=0201)(][21dx dx e x x⎰∞-=022dx e x∞--=02x e =1二、边际分布 设()'=pX X X X ,,,21 是p 维随机向量,由它的)(p q <个分量组成的子向量),,,(21)('=q i i i i X X X X 的分布为X 的边际(或边缘)分布,相对的把X 的分布称为联合分布。
通过变换X 中各分量的次序,总可假定)1(X正好是X 的前q 个分量,其余qp -个分量为)2(X,即⎥⎦⎤⎢⎣⎡=)2()1(X X X ,相应的取值也可以分为两部分,即⎥⎦⎤⎢⎣⎡=)2()1(x x x ,当X 的分布函数是),,,()(21p x x x F x F =时,)1(X 的分布函数即边际函数为:),,,()(21)1(q x x x F x F =),,,(2211q q x X x X x X P ≤≤≤=),,,,,,(12211∞≤∞≤≤≤≤=+p q q q X X x X x X x X P ),,,,,,(21∞∞= q x x x Fp p x x dx dx x x f q11),(1⎰⎰⎰⎰∞-∞-∞∞-∞∞-=q x x p q p dx dx dx dx x x f q 1111),(⎰⎰⎰⎰∞-∞-+∞∞-∞∞-⎥⎦⎤⎢⎣⎡=所以)1(X的边际密度为p q p q dx dx x x f x x x f 1121)1(),(),,,(+∞∞-∞∞-⎰⎰=例3.2:对例1中的()'=21,X X X 求边际密度函数。