多元统计分析-第三章 多元正态分布

合集下载

第3章统计实验(多元正态总体检验)

第3章统计实验(多元正态总体检验)

实验零多元正态总体检验(均值向量检验)1.实验目的:本实验讨论利用多元正态总体检验中的均值向量检验方法去判断满足多元正态分布的总体的均值是否等于预先判断的向量(单正态总体检验)或判断两个独立的、满足多元正态分布的总体的均值是否相等(双正态总体检验)。

通过该实验,能够起到如下的效果:(1) 理解多元正态总体检验中的均值向量检验方法的作用、思想、数学基础、方法和步骤;(2) 熟悉如何利用多元正态总体检验中的均值向量检验方法,提出问题、分析问题、解决问题、得出结论;(3)会调用SAS软件实现多元正态总体检验中的均值向量检验方法的各个步骤,根据计算的结果进行分析,得出正确的结论,解决实际的问题。

2.知识准备:多元正态总体检验中的均值向量检验是从判断满足多元正态分布的总体的均值是否等于预先判断的向量(单正态总体检验)或判断两个独立的、满足多元正态分布的总体的均值是否相等(双正态总体检验)。

其思想和步骤是:1.假设“需判断的总体均值等于预先判断的向量(单正态总体检验)”或“需判断的两个总体的均值相等(双正态总体检验)”;2.在该假设下,构造适当的统计量并给出其分布;3.根据观测数据算出其统计量的值;4.根据预先确定的检验水平查阅相应的分布表确定临界值和拒绝域;5.根据结果判断接受或拒绝原假设,得出结论。

(具体见书【1】第三章)3.实验内容:一、单正态总体检验:人出汗多少与人体内钠、钾含量有一定关系。

今测20名健康成年女性出汗多少(X1)、钠含量(X2)、钾含量(X3),其数据如下表1:表1 健康成年女性出汗情况的基本数据序号X1 X2 X3 序号X1 X2 X31 3.7 48.5 9.3 11 3.9 36.9 12.72 5.7 65.1 8 12 4.5 58.8 12.33 3.8 47.2 10.9 13 3.5 27.8 9.84 3.2 53.2 12 14 4.5 40.2 8.45 3.1 55.5 9.7 15 1.5 13.5 10.16 4.6 36.1 7.9 16 8.5 56.4 7.17 2.4 24.8 14 17 4.5 71.6 8.28 7.2 33.1 7.6 18 6.5 52.8 10.99 6.7 47.4 8.5 19 4.1 44.1 11.210 5.4 54.1 11.3 20 5.5 40.9 9.4利用多元正态总体检验中的单正态均值向量检验方法判断“(X1,X2,X3)的均值是否等于(4,50,10)”【1】(假设总体服从正态分布,分别取检验水平为0.05、0.01)。

多元统计分析——多元正态分布

多元统计分析——多元正态分布

一、多元正态分布的定义
1、一元正态分布的定义 若变量 X 的概率密度为:
x 2
2 2
1 f x e 2
, 0 ,
则称 X 服从一元正态分布,记为 X ~ N , 2 。 我们可以将上式改写为:


f x 2

1 2
1 exp x ' 2 2
量 X 的相关阵为
R rij p p
其中
rij
Var X i Var X j
covX i , X j

ij ii Байду номын сангаасj
i, j 1,2,, p
另证明:标准化数据的协方差阵正好是原始指标的相 关阵
第2节
多元正态分布
一、多元正态分布的定义 二、均值向量和协方差阵的估计 三、维希特(Wishart)分布 四、统计距离
三、多元变量的独立性
定义 3 两个随机向量 x 和 y 相互独立的充要条件为:
PX x, Y y PX x PY y
对任意的 x, y
若 F x, y 为 x, y 的联合分布函数; G x 和 H y 分别为 x 和 y 的分布函数, 则 x 与 y 独立当且仅当 F x, y G x H y 若 X ,Y ' 有密度函数 f x, y , g x 和 h y 分别表示 X 和 Y 的分布密度, X 和 Y 用 则 独立当且仅当


X 1 X 2 X p q
q
μ 1 μ 2 μ p q
q
11 21
12 21 p q

多元统计分析:第三章 多元正态总体参数的假设检验(补充)

多元统计分析:第三章   多元正态总体参数的假设检验(补充)
18
第三章 多元正态总体参数的假设检验
所涉及的最大似然估计量—单个总体
ˆ X时 (4) 当 0 (0 0巳知)时, 取 似然函数达最大值:
L( X , 0 ) 2
np 2
0
n 2
n 1 etr - 0 A 2
19
第三章 多元正态总体参数的假设检验
15
第三章 多元正态总体参数的假设检验
所涉及的最大似然估计量—单个总体
单个p维正态总体Np(μ,Σ),设X(i)(i=1,…,n)为来自p 维总体的随机样本.样本的似然函数为
L( , ) 2
np 2
1 ˆ A时, 似然函数达最大值 : ˆ X , (1)当 n n np A 2 A np L( X , ) 2 2 exp - n n 2
9
第三章 多元正态总体参数的假设检验
§3.6正态性检验--p维数据的正态性检验
D2(1)≤ D2(2) ≤…≤ D2(n) 统计量 D2 的经验分布函数取为
.
其中H(D2(t) |p)表示χ2 (p)的分布函数在D2(t)的值. 设χ2 分布的pt分位数为χt2 ,显然χt2满足: H(χt 2 |p)= pt. 即χ2 分布的pt 分位数χt2 =H-1(pt |p). 由经验分布得到样本的pt 分位数D2(t)=Fn-1(pt ). 若H(x|p)≌Fn(x),应有D2(t) ≌ χt2 ,绘制点(D2(t) , χt2 )的散 布图,当X为正态总体时,这些点应散布在一条直线上. 10
(1) (1) ( 2) ( 2)
np 2
A1 A2 n
(t )
np 2 2
e
X )( X

第三讲多元正态分布

第三讲多元正态分布

p
f ( x)dx 1
9
边缘分布函数及边缘密度函数
用途:
判断
随机变量的 独立性
多元向量的独立性
独立的充分必要条件:
F ( x1, x2 , xq , xq1,, x p ) F ( x1,, xq )F ( xq1,, x p )

f ( x1, x2 , xq , xq1,, x p ) f ( x1,, xq ) f ( xq1,, x p )
AX ~ Ns ( A, AAT ) 且对任何 s 维常数向量 d , X d ~ N p ( d , ) 。
考虑 AX d 的情形?
(3) 、 若 X ~ N p (, ),将 X , , 作如下剖分:
X X ( 2) X pq
11 12 ( 2) 21 22 p q p q 则 X (1) ~ Nq ( (1) , 11 ) , X ( 2) ~ N pq ( (2) , 22 ) 。
19
相关系数矩阵
若 X ( X1, X 2 , X p )T 的协方差阵存在,且每一 个分量的方差大于0,则称随机向量X 的相关阵为
1 12 R 1p
其中
12
1
2 p
1 p 2 p 1
ij
第一章 多元正态分布
多元正态分布及参数估计


基础知识 统计距离和马氏距离 多元正态分布 均值向量和协方差阵的估计 几种常用的抽样分布
2
基础知识

随机向量 分布密度函数 多元变量的独立性 随机向量的数字特征
3
随机变量(random variable)

应用多元统计分析讲稿朱建平

应用多元统计分析讲稿朱建平

第一章多元分析概述第一节引言多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。

近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。

然而,随着Internet的日益普及,各行各业都开始采用计算机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。

在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。

显然,大量信息在给人们带来方便的同时也带来一系列问题。

比如:信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辩,从而给信息的正确应用带来困难;信息组织形式的不一致性导致难以对信息进行有效统一处理等等,这种变化使传统的数据库技术和数据处理手段已经不能满足要求.Internet的迅猛发展也使得网络上的各种资源信息异常丰富,在其中进行信息的查找真如大海捞针。

这样又给多元统计分析理论的发展和方法的应用提出了新的挑战。

多元统计分析起源于上世纪初,1928年Wishart发表论文《多元正态总体样本协差阵的精确分布》,可以说是多元分析的开端。

20世纪30年代R.A. Fisher 、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速得发展。

20世纪40年代在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。

20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。

20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。

20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。

《多元正态分布》课件

《多元正态分布》课件

度概率密度函数的乘积。
高维正态分布在机器学习中的应用
降维处理
高维正态分布可以用于降维处理,通过保留数据的主要特征,降低 数据的维度,提高数据的可解释性和处理效率。
特征选择
高维正态分布可以用于特征选择,通过分析特征之间的相关性,选 择与目标变量高度相关的特征,去除冗余和无关的特征。
概率模型
高维正态分布可以用于构建概率模型,通过估计数据的概率分布, 进行分类、回归和聚类等机器学习任务。
总结词
检验多元正态分布的协方差矩阵是否与预期 协方差矩阵一致。
详细描述
通过对比样本协方差矩阵与预期协方差矩阵 ,评估样本数据是否符合多元正态分布的假 设。常用的方法包括样本协方差矩阵与预期 协方差矩阵的差异检验、样本数据的散点图 和拟合曲线分析等。
多元正态分布的其他假设检验方法
总结词
其他用于检验多元正态分布的方法。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
02
二元正态分布
二元正态分布的定义
总结词
二元正态分布是多元正态分布在两个维度上的特例,其概率密度函数呈钟形, 且服从二维高斯分布。
详细描述
二元正态分布是一种连续概率分布,描述了两个随机变量之间的关系,当这两 个随机变量相互独立时,其联合概率分布是二元正态分布。它的概率密度函数 由均值向量和协方差矩阵决定,呈现出钟形曲线。
多元正态分布的均值向量和协方差矩阵决定了其 分布形态。
多元正态分布的应用场景
多元统计分析
多元正态分布在多元统计分析中 广泛应用,如主成分分析、因子 分析、聚类分析等。
机器学习
在机器学习中,多元正态分布用 于描述特征之间的相关性,以及 在隐含层节点中实现特征的映射 。

多元统计分析多元正态分布

多元统计分析多元正态分布

因子分析可以用于数据的降维、分类和解释变量之间的复杂关系。
03
04
多元正态分布的聚类分析
K-means聚类
一种无监督的机器学习算法,通过迭代过程将数据划分为K个集群,使得每个数据点与其所在集群的中心点之间的平方距离之和最小。
总结词
K-means聚类是一种常见的聚类分析方法,其基本思想是:通过迭代过程将数据划分为K个集群,使得每个数据点与其所在集群的中心点之间的平方距离之和最小。具体步骤包括:随机选择K个中心点,将每个数据点分配给最近的中心点所在的集群,然后重新计算每个集群的中心点,并重复此过程直到中心点不再发生变化或达到预设的迭代次数。
定义与性质
性质
定义
均值向量
描述多元正态分布的期望值,表示分布的中心位置。
协方差矩阵
描述多元正态分布的各变量之间的方差和协方差,表示分布的散布程度和变量间的相关性。
维数
描述多元正态分布中随机变量的个数,不同维数的多元正态分布具有不同的形态和性质。
多元正态分布的参数
统计分析
多元正态分布在统计分析中广泛应用,如回归分析、因子分析、聚类分析等。
KNN分类
06
多元正态分布的可视化技术
总结词
主成分分析(PCA)是一种常用的多元统计分析方法,用于降维和数据可视化。
总结词
PCA可视化能够揭示数据中的模式和趋势,帮助我们理解数据的内在结构和关系。
详细描述
通过将数据投影到主成分上,我们可以将高维数据可视化为一组二维或三维图形,从而更直观地观察数据的分布、中心、离群值和聚类等特征。
逻辑回归分类
VS
支持向量机(SVM)是一种有监督学习算法,用于解决分类问题。在多元正态分布的背景下,支持向量机通过找到能够将不同类别的数据点最大化分隔的决策边界来实现分类。

厦门大学《应用多元统计分析》习题第03章 多元正态分布均值向量和协差阵的检验

厦门大学《应用多元统计分析》习题第03章 多元正态分布均值向量和协差阵的检验

3
2
50.5
2.25
53
2.25
3
51
2.5
51.5
2.5
4
56.5
3.5
51
3
5
52
3
51
3
6
76
9.5
77
7.5
7
80
9
77
10
8
74
9.5
77
9.5
9
80
9
74
9
10
76
8
73
7.5
11
96
13.5
91
12
12
97
14
91
13
13
99
16
94
15
14
92
11
92
12
15
94
15
91
12.5
3.6 1992 年美国总统选举的三位候选人为布什、佩罗特和克林顿。从支
持三位候选人的选民中分别抽取了 20 人,登记他们的年龄段( x1 )、受教育
程度( x2 )和性别( x3 )资料如下表所示:
投票人
x1
x2
x3
投票人
x1
x2
x3
布什
2
1
2
1
1
11
1
1
2
2
1
3
2
12
4
1
2
3
3
3
1
13
4
0
2
4
1
3
2
14
3
4
2
5
3
1

多元正态分布

多元正态分布

混合模型
除了高斯混合模型,还有其他类 型的混合模型,如多项式混合模 型、泊松混合模型等。
扩展应用领域
多元正态分布在许多领域都有广 泛的应用,如心理学、经济学、 生物统计学等。
THANKS
感谢观看
02
联合分布的均值向量和协方差矩阵由各个分量的均 值和协方差决定。
03
当各分量之间相互独立时,其联合分布的协方差矩 阵为各分量协方差矩阵的线性组合。
04
多元正态分布的推断
参数估计
最大似然估计
01
通过最大化样本数据的似然函数来估计多元正态分布的参数,
包括均值向量和协方差矩阵。
最小二乘估计
02
将多元正态分布的均值向量作为回归系数,利用最小二乘法进
多元正态分布
• 多元正态分布概述 • 多元正态分布的参数 • 多元正态分布的性质 • 多元正态分布的推断 • 多元正态分布在统计和机器学习中的
应用 • 多元正态分布的扩展和变种
01
多元正态分布概述
定义与性质
定义
多元正态分布是多个连续随机变量的 概率分布,其概率密度函数是多元高 斯函数。
性质
多元正态分布具有旋转对称性、椭球 等高性、边缘分布的独立性和最大熵 等性质。
当其他维度固定时,该维度的边缘分 布是关于均值对称的,且方差与该维 度与其他维度的协方差成正比。
随机变量的线性变换
对于多元正态分布的随机变量,对其 进行线性变换后,新变量的分布仍然 是多元正态分布。
线性变换包括平移、旋转、缩放等, 这些变换不会改变变量的分布形态。
随机向量的联合分布
01
对于多元正态分布的随机向量,其各分量之间的联 合分布也是正态分布。
06

3.多元正态分布-讲解(下)

3.多元正态分布-讲解(下)

目录一元正态分布回顾多元正态分布多元正态分布及 的极大似然估计 及 的抽样分布多元正态的估计一元正态性多元正态性评估正态性多元正态分布的性质多元正态分布的性质多元正态的估计一元情形的回顾基于服从正态分布 的总体的独立同分布样本 :样本均值 服从:样本方差 服从:与 相互独立多元正态的估计多元情形类似于一元的情形,基于服从正态分布 总体的独立同分布样本 :样本均值 服从:样本方差 服从:这里的 表示 个自由度的Wishart分布 与 相互独立多元正态的估计Wishart分布Wishart 分布的定义:假设 维向量 独立同分布且服从 ,则:假设两个 的随机矩阵 和 分别服从分布 、且彼此独立,则:如果 , , 为 的常数矩阵,则有:目录一元正态分布回顾多元正态分布多元正态分布及 的极大似然估计 及 的抽样分布多元正态的估计一元正态性多元正态性评估正态性多元正态分布的性质多元正态分布的性质评估一元正态性图像方法:直方图、QQ图偏度和峰度统计检验:•Shapiro-Wilks 检验•Kolmogorov-Smirnov 检验•Cramer-von Mises 检验•Anderson-Darling 检验•……Histogram for 100 random numbers from N (0,1)y1F r e q u e n c y-4-20240102030Histogram for 100 random numbers from Exp(2)y2F r e q u e n c y0.00.5 1.0 1.52.0 2.53.0 3.50204060Histogram for 100 random numbers from t(1)y3F r e q u e n c y-4-202451020Histogram for 100 random numbers from -Exp(2)y4F r e q u e n c y-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00204060-2-112-3-1012Q-Q plot for Y1 from N (0,1)Theoretical Quantiles S a m p l e Q u a n t i l e s-2-10120.01.02.03.0Q-Q plot for Y2 from Exp(2)Theoretical QuantilesS a m p l e Q u a n t i l e s-2-112-60-40-2020Q-Q plot for Y3 from t(1)Theoretical Quantiles S a m p l e Q u a n t i l e s-2-1012-3.0-2.0-1.00.0Q-Q plot for Y4 from -Exp(2)Theoretical QuantilesS a m p l e Q u a n t i l e s根据QQ图的形状来判断正态性:直线(公式箭头) 正态反“S”形 比正态厚尾“S”形比正态薄尾凸弯曲右偏凹弯曲左偏评估一元正态性偏度和峰度我们可以用偏度和峰度对正态性进行粗略的判断,它们应该在(0,3)左右评估一元正态性统计检验图像方法的缺点:•图像方法对于小样本并不适用•图像方法以及偏度峰度法只提供了一个粗糙而不正式的检验方法,没有一个明确的决定准则。

3-多元正态抽样分布

3-多元正态抽样分布

XX21
X22
X2p
XX((12))

Xn1
Xn2 Xnpnp
X(n)

独立同分布于 Np(μ,) ,则随机矩阵 W n (i)(i) i 1
W XX
x11 x12
x21 xn1x11 x22 xn2x21
W=E+B
当K个总体的均值相等时 ,
W ~W p(n1, ) E~W p(nk,) B~W p(k1,) E E
EB W
服从Wilks Λ(p,n-k,k-1)分布。
即np T2~F(p,np) (n1)p
定理:设 x1,x2,,xn1 是来自多元正态总体 N p (1,) 的简单
随机样本,
x 1 ( x 1,x 1 1, 2,x 1 p )
x 2 ( x 2,x 1 2, 2,x 2 p )

x n 1 ( x n 1 1 ,x n 1 2 , ,x n 1 p )
三、 抽样分布
定理1:设X1,X2,……Xn是来自多元正态总体Np(,) 的简单随机样本,有
x 1 (x 1,1 x 1, 2,x 1 p )
x 2 (x 2,1 x 2, 2,x 2 p )
x n (x n 1 ,x n 2 , ,x n)p
令 1ni n1i
3131几个重要统计量的分布几个重要统计量的分布的二次型维随机向量分量独立的正态变量二次型的分布一维希特wishart1定义随机矩阵的分布22211211设随机矩阵矩阵中的每一个元素均为随机变量则矩阵x的分布是其行向量拉长组成一个长向量定义维希特wishart分布的统计量22211211独立同分布于则随机矩阵服从自由度为的非中心维斯特分布记为ljil2221121122122111在一元正态随机变量中我们曾经讨论了分布在多元正态随机变量也有类似的样本分布

多元正态分布

多元正态分布

1
n1

n
)
X
二、多元正态总体的最大似然估计及其性质
利用最大似然法求出 μ和 的最大似然估计为:
μˆ X
ˆ 1S n
求解过程
似然函数为:
L (, ) f(x ( 1 ))f(x (2 )) f(x (n ))
n (2) p2 1 2ex 1 (x p [) 1 (x)]
2
22 n
(引理:设A为p阶正定矩阵,则 tr(A)lnAp 当A=I
等号成立。
A1/2S n1/2Ip时等号成 立 n S ,即
最大似然估计的性质
1. E(X)μ ,即 X 是 μ的无偏估计 。
E(1nS)nn1,即
1S n
不是 的无偏估计。
E( 1 S) n1
样本均值向量可以用样本矩阵表示出来,即
X
p 1

1 n
X
1 n
1n (1,1, ,1)
因为:
X 11
1 n
X 1n

1 n

X
12


X
1n
X 21 X 22

X 2n
X p1 X p2

X pn


1 1

n
独立同分布于 Np(μ,), 则随机矩阵 W (i)(i) 服从自由度
为n的非中心维斯特分布,记为
i1
W~Wp(n,,μ)
随机矩阵的分布:
X11 X12 X1p
X


X21
X22

X2p

多元统计分析1-3章

多元统计分析1-3章

第一章绪论§1.1 什么是多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。

例如,要衡量一个地区的经济发展,需要观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。

在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。

总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。

上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。

如何同时对多个随机变量的观测数据进行有效的统计分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。

显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。

而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律,如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科,同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。

在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。

为提高科学性、可靠性,通常需要定性与定量分析相结合。

实践证明,多元分析是实现做定量分析的有效工具。

多元正态分布均值向量和协差阵的检验

多元正态分布均值向量和协差阵的检验

2
在一元统计中,若 t ~ t (n 1) 分布, 2 则 t ~ F (1, n 1) 分布,即把t分布转化为F分 布来处理,在多元统计分析中统计量也有类 似的性质。
定理1:设X ~ N p (0, ), S ~ W p (n, ),且X与S相互独立, 令 T 2 nX T S 1 X n p 1 2 则 T ~ F ( p, n p 1) np
其中,T 2 (n 1)[ n ( X 0 )T S 1 n ( X 0 )] 再由样本值计算出 F,比较 若F F,则拒绝H 0,否则,接受H 0。
给定检验水平,查F分布表,使PF F =,确定出临界值 F。
在处理实际问题时,单一变量的检验和多变量的检 验可以联合使用,多元的检验具有概括和全面的特点, 而一元的检验容易发现各变量之间的关系和差异,能给 人们提供更多的统计分析的信息。
这个公式在后面检验中经常用到。
2、一个正态总体均值向量的假设检验
设X ,X ,,X 来自于p维正态总体N p ( , ),容量为n的样本,n p,且 (1) (2) (n) 1 n X= X i , n i 1 S ( X i X )( X i X )T
i 1 n
而 故
Y n ( X 0 ) ~ N p (0, )
T02 n( X 0 )T 1( X 0 ) ~ 2 ( p)
(2)协差阵未知时,均值向量的检 验 H 0:=( H1: 1 0 0为已知向量), 假设H 0成立,检验统计量为 F (n 1) p 1 2 T ~ F ( p, n p ) (n 1) p
• 例1:对某地区农村的6名2周岁男婴的身高、胸围、上半 臂围进行测量,得样本数据如表所示:

多元统计分析-第三章 多元正态分布

多元统计分析-第三章  多元正态分布

第三章 多元正态分布多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。

多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。

第一节 一元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。

一、随机变量及概率分布函数 (一)随机变量随机变量是随机事件的数量表现,可用X 、Y 等表示。

随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。

(二)随机变量的概率分布函数随机变量X 的概率分布函数,简称为分布函数,其定义为:)()(x X P x F ≤=随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。

1、离散型随机变量的概率分布若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。

设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,记为k k p x X P ==)((Λ,2,1=k )称k k p x XP ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。

离散型随机变量的概率分布具有两个性质: (1)0≥k p ,Λ,2,1=k(2)11=∑∞=k k p2、连续型随机变量的概率分布若随机变量X 的分布函数可以表示为dt t f x F x⎰∞-=)()(对一切R x ∈都成立,则称X 为连续型随机变量,称)(x f 为X 的概率分布密度函数,简称为概率密度或密度函数。

第三章多元正态分布-

第三章多元正态分布-



则S将是Σ的一个无偏估计,即有E(S)=Σ。
§3.5 x 和(n − 1)S的抽样分布
❖ 一、 x
的抽样分布
❖ 二、 (n − 1)S的抽样分布
THANK YOU
感谢观赏
§3.2 多元正态分布的性质
(5)设x1,x2, ⋯,xn相互独立,且xi~N p (μi, Σi) ,
i=1,2,⋯,n,则对任意n个常数,有
n
n
n
2
k
N
k
k


ix
i
p

i,

i
i
1
i
1
i1

➢ 此性质表明,独立的多元正态变量(维数相同)的
任意线性组合仍为多元正态变量。
第三章多元正态分布-



二元正态分布的密度等高线族
(使用SAS/INSIGHT,由10000个二维随机数生成)
y
0
0
-2
0
x
2
-2
0
2
x
4
§3.2 多元正态分布的性质
*(1)略。
❖ (2)设x是一个p维随机向量,则x服从多元正态分
布,当且仅当它的任何线性函数a x 均服从一元正态
述性质(2)或(3)知,



a
xN
a
μ
,
a
Σ
a



(4)设x~Np (μ, Σ),则x的任何子向量也服从(多
元)正态分布,其均值为μ的相应子向量,协方差
矩阵为Σ的相应子矩阵。
该性质说明了多元正态分布的任何边缘分布仍为
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章 多元正态分布多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。

多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。

第一节 一元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。

一、随机变量及概率分布函数 (一)随机变量随机变量是随机事件的数量表现,可用X 、Y 等表示。

随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。

(二)随机变量的概率分布函数随机变量X 的概率分布函数,简称为分布函数,其定义为:)()(x X P x F ≤=随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。

1、离散型随机变量的概率分布若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。

设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,记为k k p x X P ==)((Λ,2,1=k )称k k p x XP ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。

离散型随机变量的概率分布具有两个性质: (1)0≥k p ,Λ,2,1=k(2)11=∑∞=k k p2、连续型随机变量的概率分布若随机变量X 的分布函数可以表示为dt t f x F x⎰∞-=)()(对一切R x ∈都成立,则称X 为连续型随机变量,称)(x f 为X 的概率分布密度函数,简称为概率密度或密度函数。

连续型随机变量的概率密度函数具有两个性质:(1)0)(≥x f(2)1)(=⎰∞∞-dx x f二、随机变量的数字特征(一)离散型随机变量的数字特征若X 为离散型随机变量,其概率分布为),2,1()(Λ===k p x X P k k ,则X 的数学期望(或称均值)和方差分别定义为:∑∞===1)(k k k p x X E μ[]()∑∞=-=-===1222)()()(k k k p x X E X E X Var X D μσ(二)连续型随机变量的数字特征 若X 为连续型随机变量,其密度函数为)(x f ,则X 的数学期望和方差分别定义为:⎰∞∞-==)()()(x d x xf X E μ()dx x f x X Var X D )()()(22⎰∞∞--===μσ方差的一个简便计算公式为222)]([)(X E X E -=σ(三)数学期望的数学性质1、设c 是常数,则c c E =)(2、设X 是随机变量,c 是常数,则)()(X cE cX E =3、设X 、Y 是任意两个随机变量,则)()()(Y E X E Y XE +=+4、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y E X E XY E =(四)方差的数学性质 1、设c 是常数,则0)(=c D2、设X 是随机变量,c 是常数,则)()(2X D ccX D =3、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y D X D Y X D +=+三、一些重要的一元分布 1、二项分布重复进行n 次相互独立的试验,若每次实验仅有两个可能结果,每次实验成功的概率均为p ,设X 为n 次独立实验中成功出现的次数,则离散型随机变量X 的分布律为:kn k p p k n k X P --⎪⎪⎭⎫ ⎝⎛==)1()(, n k ;,2,1,0Λ= 其中,p q p -=<<1,10,n 为自然数,称X 服从二项分布。

二项分布中np X E =)(,方差为)1()(2p np X Var -==σ。

2、超几何分布若N 个产品中有M 个不合格品,从N 中随机不放回地抽取n 个进行调查,X 为出现的不合格品数,则离散型随机变量X 的分布律为:⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛--⎪⎪⎭⎫ ⎝⎛==n N k n M N k M k X P )(,),min(,,2,1,0M n k Λ=则称X 服从超几何分布。

当N 很大,n 相对较少时,超几何分布近似于二项分布。

3、泊松分布若离散型随机变量X 的分布律为:!)(k e k X P k λλ-==, Λ,2,1,0=k其中0>λ,则称X 服从泊松分布。

泊松分布中λ=)(X E ,λσ==)(2X Var 。

在np =λ恒定的条件下,当n 趋于无穷,p 趋于零时,二项分布趋向于泊松分布。

4、正态分布若连续型随机变量X 的概率密度函数为:⎭⎬⎫⎩⎨⎧--=222)(exp 21)(σμσπx x f ,∞><∞-x 则称X 服从正态分布,记作),(~2σμN X ,其中参数μ、2σ分别是随机变量X 的数学期望和方差。

当0=μ,12=σ时,随机变量X 的分布为标准正态分布。

当n 很大,p 和q 都不太大时,二项分布可用正态分布近似计算。

5、卡方分布设随机变量n X X X ,,,21Λ皆服从)1,0(N ,且相互独立,则其平方和∑=ni i X 12所服从的分布称为卡方分布,记为:)(~2n X χ,n 为自由度,表示平方和∑=ni i X 12中独立随机变量的个数。

6、t 分布设随机变量)1,0(~N X,)(~2n Y χ,且X 与Y 相互独立,则随机变量nY X t =的分布称为t 分布。

记为)(~n t t ,n 为自由度。

随着自由度n 趋向于无穷大,t 分布以标准正态分布为极限。

7、F 分布 设随机变量)(~2n Xχ,)(~2m Y χ,且X 与Y 相互独立,则随机变量mY n X F =服从第一自由度为n 、第二自由度为m 的F 分布,记为),(~m n F F 。

第二节 多元统计分析中的基本概念在社会、经济及自然科学等许多领域,常常需要同时研究多个指标,例如,要研究上市公司的盈利状况,就涉及到公司的主营业务利润、营业利润、利润总额和净利润等总量指标,主营业务利润率、经营净利率、资产利润率、资产净利率、净资产收益率、总资产报酬率等相对指标,每股收益、加权每股收益等平均指标。

这些变量都是随机变量,随机变量之间往往存在一定的联系,因而需要把这些随机变量作为一个整体来研究。

一、随机向量及概率分布 (一)随机向量设有p 个随机变量p X X X ,,,21Λ,且它们之间有一定的联系,这些随机变量组成的整体就是随机向量,记为()'=p X X X X ,,,21Λ。

在多元统计分析中,仍将所研究对象的全体称为总体,它是由许多个体构成的集合,如果构成总体中的个体是有p 个观测指标的个体,称这样的总体为p 维总体,或p 元总体。

由于从p 维总体中随机抽到一个个体,其p 个指标观测值不能事先精确知道,它依赖于被抽到的个体,因此,p 维总体可用p 维随机向量来表示,这里的维或元表示共有几个分量。

(二)随机向量的概率分布 设()'=pX X X X ,,,21Λ是p 维随机向量,它的多元概率分布函数定义为:),,,(),,,()(221121p p p x X x X x X P x x x F x F ≤≤≤==ΛΛ,记为)(~x F X ,其中:()p p R x x x x∈=,,,21Λ,p R 表示p 维空间。

1、离散型随机向量的概率分布 定义3.1:若()'=p X X X X ,,,21Λ是p 维随机向量,若存在有限个或可列个p 维数向量,,,21Λx x 记k k p x X P ==)((Λ,2,1=k ),且满足121=++Λp p ,则称X 为离散型随机向量,并称k k p x XP ==)((Λ,2,1=k )为离散型随机向量X 的概率分布。

2、连续型随机向量的概率分布 定义3.2:设()p x x x F x F X ,,,)(~21Λ=,若存在一个非负函数()p x x x f ,,,21Λ,使得()()p xxp p dt dt dt t t t f x x x F x F pΛΛΛΛ2121211,,,,,,)(⎰⎰∞-∞-==对一切()p p R x x x x∈=Λ,,21都成立,则称X 为连续型随机向量,称()p x x x f ,,,21Λ为分布密度函数。

一个p 维变量的函数()p x x x f ,,,21Λ能作为p R 中某个随机向量的分布密度函数,当且仅当(1)0),,(21≥p x x x f Λ,()p p R x x x ∈'∀,,,21Λ(2)()⎰⎰∞∞-∞∞-=1,,,2121p p dx dx dx x x x f ΛΛΛ例3.1:试证函数⎩⎨⎧=+-0),()(2121x x e x x f , 其它,0021≥≥x x为随机向量()'=21,X X X的密度函数。

证:只要验证函数满足密度函数的两个条件即可。

(1) 显然,0),(21≥x x f(2)()⎰⎰⎰⎰∞∞+-∞∞-∞∞-=0021)(212121,dx dx e dx dx x x f x x⎰⎰∞∞+-=0201)(][21dx dx e x x⎰∞-=022dx e x∞--=02x e =1二、边际分布 设()'=pX X X X ,,,21Λ是p 维随机向量,由它的)(p q <个分量组成的子向量),,,(21)('=q i i i i X X X X Λ的分布为X 的边际(或边缘)分布,相对的把X 的分布称为联合分布。

通过变换X 中各分量的次序,总可假定)1(X正好是X 的前q 个分量,其余qp -个分量为)2(X,即⎥⎦⎤⎢⎣⎡=)2()1(X X X ,相应的取值也可以分为两部分,即⎥⎦⎤⎢⎣⎡=)2()1(x x x ,当X 的分布函数是),,,()(21p x x x F x F Λ=时,)1(X 的分布函数即边际函数为:),,,()(21)1(q x x x F x F Λ=),,,(2211q q x X x X x X P ≤≤≤=Λ),,,,,,(12211∞≤∞≤≤≤≤=+p q q q X X x X x X x X P ΛΛ ),,,,,,(21∞∞=ΛΛq x x x Fp p x x dx dx x x f qΛΛΛΛ11),(1⎰⎰⎰⎰∞-∞-∞∞-∞∞-=q x x p q p dx dx dx dx x x f qΛΛΛΛΛ1111),(⎰⎰⎰⎰∞-∞-+∞∞-∞∞-⎥⎦⎤⎢⎣⎡=所以)1(X的边际密度为p q p q dx dx x x f x x x f ΛΛΛΛ1121)1(),(),,,(+∞∞-∞∞-⎰⎰=例3.2:对例1中的()'=21,X X X 求边际密度函数。

相关文档
最新文档