多元统计分析讲义
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析讲义(第一章)(总
24页)
--本页仅作为文档封面,使用时请直接删除即可--
--内页可以根据需求调整合适字体及大小--
《多元统计分析》
Multivariate Statistical Analysis
主讲:统计学院许启发()
统计学院应用统计学教研室
School of Statistics
2004年9月
第一章绪论
【教学目的】
1.让学生了解什么是多元统计分析它的发展与现状;
2.让学生了解多元统计分析的主要范畴、功能;
3.回顾相关的矩阵理论和多元正态分布理论;
4.阐述多元数据的表示方法。
【教学重点】
1.从一元到多元的过度;
2.多元正态理论及其相关命题。
§1 引言
一、什么是多元统计分析
在实践中,常会碰到需要同时观测若干指标的问题。
例如衡量一个地区的经济发展水平:总产值、利润、效益、劳动生产率等;在医学诊断中,有病还是无病,需做多项检测:血压、体温、心跳、白血球等①。
提出问题:如何同时对多个随机变量的观测数据进行有效的分析和处理有两种做法:分开研究;同时研究。
但前者会损失一定的信息量。
多元统计分析就是研究多个随机变量之间相互依赖关系以及内在统计规律的一门学科,利用其中的不同方法可对研究对象进行分类和简化。
二、多元统计分析的产生和发展
1.1928年Wishert发表论文《多元正态总体样本协方差阵的精确分布》,是多元统计分析的开端;
2.20世纪30年代,Fisher, Hotelling, 许宝碌等奠定了多元统计分析的理论基础;
3.20世纪40年代,在心理学、教育学、生物学等方面有不少应用,但由于计算量大,发展受到限制;
4.20世纪50年代中期,随着计算机的出现和发展,使多元分析方法在地质、气象、医学和社会学方面得到广泛应用;
5.20世纪60年代,通过应用和实践又完善和发展了理论,使得它的应用范围更广;
6.20世纪70年代初期,才在我国受到各个领域的极大关注,近30多年在理论上和应用上都取得了若干新进展。
三、多元统计分析的主要范畴(研究内容)
在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统特征和运行状态的数据信息。
这类原始数据集合往往由于样本点数量巨大,用于刻画系统特征的指标变量众多,并且带有动态特性,而形成规模宏大、复杂难辨的数据海洋。
如何分析和认识高维复杂数据集合中的内在规律性,简明扼要地把握系统的本质特征;如何对高维数据集合进行最佳综合,迅速将隐藏在其中的重要信息集中提取出来;如何充分发掘数据中的丰富内涵,清晰地展示系统结构,准确地认识系统元素的内在联系,以及直观地描绘系统的运动历程。
利用统计学和数学方法,对多维复杂数据集合进行科学分析的理论和
方法,就是多元统计数据分析研究的基本内容。
其主要范畴包括:多元正态总体的参数估计和假设检验以及常用的统计方法。
具体地有:多元数据图表示法;多元回归分析;聚类分析;判别分析;主成分分析;因子分析;对应分析;典型相关分析;路径分析;多维标度分析等。
四、多元统计分析的功能和应用领域
主要用于对高维数据进行处理,包括:简化数据和数据结构、能够进行假设检验、进行分类和组合、进行相应的评价、预测、控制等。
主要用于:经济学、医学、教育学、心理学、体育科学、生态学、地质学、社会学、考古学、军事科学、环境科学、文学等。
五、如何学习多元统计分析
可以说《多元统计分析》课程有两种讲授方法和学习方式:一是重理论推导型;二是重实证应用型。
我们的讲授以实证应用为主,辅以部分的理论介绍。
同学们应该重点学习多元统计分析中各种常用的分析方法,领悟与掌握各种方法的实际背景、基本思想、理论依据、应用场合和可能结论,同时对每种方法会解决实际问题。
每一部分都配有相应的案例①,请同学在上机的时候完成,也作为平时作业给予相应的成绩。
六、先修课程
1.线性代数
2.概率论
3.数理统计
4.相应的统计软件
5.经济学
七、统计和计算机和统计软件
现代生活越来越离不开计算机了。
最早使用计算机的统计当然更离不开计算机了。
事实上,最初的计算机仅仅是为科学计算而设计和建造的。
大型计算机的最早一批用户就包含统
计。
而现在统计仍然是进行数字计算最多的用户。
当然计算机现在早已脱离了仅有数字计算功能的单一模式,而成为百姓生活的一部分。
计算机的使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。
结果也从单纯的数字输出到包括漂亮的表格和图形在内的各种形式。
统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。
只要输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。
人们可能会问,是否傻瓜式统计软件的使用可以代替统计课程了当然不是。
数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。
有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。
但统计软件则不那么负责。
只要数据格式无误、选项不矛盾而且不用零作为除数就一定给你结果,而且几乎没有任何警告。
另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。
这就使得使用者大伤脑筋。
即使是统计学家也不一定能解释所有的输出。
因此,就应该特别留神,明白自己是在干什么。
不要在得到一堆毫无意义的垃圾之后还沾沾自喜。
统计软件的种类很多。
有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。
还有些是专门的软件,只处理某一类统计问题。
面对太多的选择往往给决策带来困难。
这里介绍最常见的几种。
1.SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。
它也有自己的程序语言,但基本上已经“傻瓜化”。
它对于非专业统计工作者是很好的选择。
2.SAS:这是功能非常齐全的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。
尽管现在已经尽量“傻瓜
化”,但仍然需要一定的训练才可以进入。
也可以对它编程;但对于基本统计课程则不那么方便。
3.Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。
4.Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。
而且凡是有Microsoft Office的计算机,基本上都装有Excel。
但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。
当然,画图功能是已经具备的了。
对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用宏命令来编程;这时就没有相应的简单选项了。
多数专门一些的统计推断问题还需要其他专门的统计软件来处理。
5.S-plus:这是统计学家喜爱的软件。
不仅由于其功能齐全,而且由于其强大而又方便的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。
它也在进行“傻瓜化”以争取顾客。
但仍然以编程方便为顾客所青睐。
6.R软件:这是一个免费的,由志愿者管理的软件。
其编程语言与S-plus所基于的S语言一样,很方便。
还有不断加入的从事各个方向研究的统计学家编写的统计软件包。
同时从网上可以不断更新和增加有关的软件包和程序。
这是发展最快的软件,受到世界上统计师生的欢迎。
是用户量增加最快的统计软件。
它的语言结构和C++、Fortran、Matlab、Pascal、Basic等很相似,容易举一反三。
对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。
7.Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。
8.MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。
编程类似于S和R。
但是统计函数不多。
9.Eviews:这是一个处理回归和时间序列等问题很方便的软件。
10.GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。
主要也是编程功能强大。
目前在我国使用的人不多。
11.FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有许多数学软件包和一些统计软件包。
由于可以编译成机器语言,计算速度比这里介绍的其他软件都快得多。
但需要编程和编译。
当然,还有很多其他的软件,没有必要一一罗列。
其实,聪明的读者只要学会使用一种“傻瓜式”软件,使用其他的软件也不会困难;最多看看帮助和说明即可。
如果只有英文帮助,那还可以顺便提高你的英文阅读能力。
学习软件的最好方式是需要时在使用中学。
八、几点要求
1.复习矩阵代数及数理统计的有关内容;
2.及时消化课堂内容;
3.按时完成作业;
4.其它事项。
九、参考书目
1.孙慧钧:《多元统计分析方法与应用》,内蒙古大学出版社,1997年8月。
2.于秀林、任雪松:《多元统计分析》,中国统计出版社,1999年8月。
3.罗积玉、邢英:《经济统计分析方法及预测》,清华大学出版社,1987年8月。
4.何晓群:《应用回归分析》,中国人民大学出版社,2001年6月。
5.Ruchard A. Johnson & Dean W. Wichern著,陆璇译:《实用多元统计分析》,清华大学出版社,2001年4月。
6.张尧庭、方开泰:《多元统计分析引论》,科学出版社,1997年8月(第三次印刷)。
7.方开泰:《实用多元统计分析》,华东师范大学出版社,1989年9月。
8.胡国定,张润楚:《多元数据分析方法—纯代数处理》,南开大学出版社,1990年。
9.张润楚:《多元统计理论与数据分析方法》(校内讲义),南开大学数学科学学院,2003年2月。
10.任若恩:《多元统计数据分析—理论、方法、实例》,国防工业出版社,1997年6月。
11.郭志刚:《社会统计分析方法——SPSS软件应用》,中国人民大学出版社,1999年12月。
12.卢纹岱、朱一力、沙捷、朱红兵:《Spss for Wingdows从入门到精通》,电子工业出版社,1997年6月。
13.易丹辉:《》,中国统计出版社,2002、10;
14.Anderson,.(1984), An Introduction to Multivariate Statistical Analysis, 2nd ed., New York: John Wiley & Sons.
15.Eaton,.(1983), Multivariate Statistics:A Vector Space Approach, New York: John Wiley & Sons.
16.Johnson,. and Wichern,.(1982), Applied Multivariate Statistical Analysis, New York: Prentice-Hall, Inc.
§2 矩阵理论及随机向量①
本节主要介绍多元统计分析中用到的矩阵和向量代数知识,以及将概率论及数理统计中的随机变量理论推广到随机向量。
一、 矩阵代数②
1.
单位矩阵:1I I -=,IB BI B ==; 2.
对称矩阵:A A '=; 3.
转置运算:()ABC C B A ''''=; 4.
逆运算:()1111ABC C B A ----=; 5.
矩阵乘法:AB BA ≠; 6. 矩阵的迹:主对角线元素之和③;
1()()n i tr A tr A λλλ'==++=∑
()()()tr A B tr A tr B +=+
()()tr AB tr BA =
7. 正交矩阵④:AA I '=或1A A -'=;
8. 幂等矩阵:2A A =;
9. 投影矩阵:对称的幂等矩阵;
10. 平方根矩阵:1/2A
因A 正定,必存在正交矩阵U ,使得
()1,,n U AU diag λλ'==Λ
1/21/21/21/2A U U U U U U A A '''⎡⎤⎡⎤⇒=Λ=ΛΛ⎣⎦⎣⎦
二、 随机向量和随机矩阵
随机向量是元素为随机变量的向量;随机矩阵是元素为随机变量的矩阵。
定义1:设()1,,p p X X '=X ,若对于任意的{}1,2,,i p ∈,i X 均为随机变量,则称p X 为p 维随机向量。
定义2:设()m n ij m n x ⨯⨯=X 中每一个元素ij x 均为随机变量,则称X 为m n ⨯维随机矩阵。
三、 随机向量及其分布
设()1,,p p X X '=X 为一p 维随机向量,如果该向量在空间p R 中存在概率分布,即对任何()1
,,p p y y R ∈,概率 ① 这里讨论的均值向量和协方差矩阵均为总体的,实际上还可以讨论样本均值向量和样本协方差矩阵。
一些概念和结论可以从一元随机变量那儿推广过来。
② 可以参阅《经济学家的数学手册》一书。
③
这里i λ为矩阵A 的特征根。
i A λ=∏。
()()111,,,,p p p F y y P x y x y =≤≤
存在。
并称p 元函数为p X 的分布函数,记~p F X ,称p X 服从F 分布,也称F 为p X 的联合分布函数。
如果一个随机向量()1,,p p X X '=X ,有空间p R 中的非负函数()f x 使得其分布函数可表为积分
()()x F X f u du -∞
=⎰
,p X R ∈
X 为连续型随机向量,则称()f X 为p X 的概率分布密度函数(简记为pdf )。
四、 均值向量和协方差矩阵
1.均值向量和均值矩阵 设()1,
,p p X X '=X ,若i i EX μ=,1,2,
,i p =存在,则称()1,
,p E μμ'
'=X μ为随机向量p X 的均值
向量。
同理,称()m n ij m n
E Ex ⨯⨯=X 为随机矩阵X 的期望矩阵或均值矩阵。
2.协方差矩阵(方差-协方差矩阵)
令21,2,,ii i i p σσ==,()(),1,2,,ij i i j j E X X i j p i j σμμ'=--=≠且则称
1112
12122212p p p p pp σσσσσσσσσ⎛⎫ ⎪ ⎪∑= ⎪ ⎪ ⎪⎝⎭为随机向量p X 的协方差矩阵。
那么由Σ的定义知
2
11121111122112
2122
2221122222
12
1122()()()
()()()()
()()()()()()()
()p p p p p p p p pp p p p p p p E X E X X E X X E X X E X E X X E X X E X X E X σσσμμμμμσσσμμμμμσ
σσμμμμμ⎛⎫
-----⎛⎫
⎪
⎪----- ⎪
⎪==
⎪ ⎪
⎪ ⎪ ⎪ ⎪-----⎝⎭
⎝
⎭
Σ 2111122112221122222
1122()()()()()()()()()()()()()()
()p p p p p p p p p p X X X X X X X X X X E X X X X X μμμμμμμμμμμμμμμ⎛⎫
-----
⎪
----- ⎪
= ⎪
⎪ ⎪-----⎝⎭
()11221122
p p p
p X X E X X X X μμμμμμ⎡-⎤
⎛⎫
⎢⎥
⎪-⎢⎥ ⎪=---⎢⎥ ⎪⎢⎥ ⎪ ⎪-⎢⎥⎝⎭⎣⎦
()()E Cov '
=--X μX μX
NOTE :协方差阵Σ的特点:
①ij ji σσ=,对于任意的,1,2,
,i j p =,即Σ为对称矩阵;
②当i j =时,为第i 个分量i X 的方差;
③对于任意的,i j ,ij σ表示X 的第i 个分量与第j 个分量的协方差。
若0ij σ=,则称i X 与j X 是互不相关的①。
3.相关系数矩阵
①
在概率论中,我们已经知道,若i X 与j X 相互独立,则它们互不相关,但反之未必成立。
令
ij ii jj
σρσσ=
(,1,2,
,i j p =),则ij ρ为变量i X 与j X 的相关系数,它度量了随机变量i X 与j X 之
间的线性相关程度①。
则称p p ⨯阶矩阵()
ij p p
ρ⨯=ρ为随机变量X 的相关系数矩阵。
若记11221/2pp p p
V σσσ⨯⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭,则1/21/2
--=ρV ΣV 。
若1/2V 已知,则ρ与Σ之间相互确定。
事实上,1/21/21/21/2--=⇔=ρV ΣV ΣV ρV ②。
作业
五、 随机向量线性变换的均值向量和协方差矩阵
设X 是p 维随机向量,A 为m p ⨯阶常数矩阵,b 为m 维向量,令=+Y AX b ,则Y 为m 维随机向量。
1.E E =+=+Y A X b A μb ; 2.Cov Cov ''==Y A XA A ΣA
作业:
①
ij ρ的值越在,说明i X 与j X 之间的线性相关程度越大,反之越小。
当0ij ρ>时,i X 与j X 正相关;当0ij ρ<时,i X 与j X 负相关。
②
左乘是行变换,右乘是列变换。
设X 和Y 分别为p 维和q 维随机向量,定义[](,)()()Cov E E E =--X Y X X Y Y ①,且A 和B 分别为m p ⨯和n q ⨯维常数矩阵,则有下面结论:
3.(,)(,)Cov Cov '=AX BY A X Y B
六、 随机向量的二次型
设()1,
,p p X X '=X 为p 维随机向量,A 为p p ⨯阶对称矩阵,则称随机变量11p
p
ij i j i i a X X =='=∑∑X AX 为X
的二次型。
1.设E μ=X ,Cov =∑X ,则()()E tr μμ''=+∑X AX A A 。
其中()tr A 表示矩阵A 的对角线上的元素和。
特别地,(1)若0μ=,则()()E tr '=∑X AX A ;
(2)若2I σ∑=,则()()2E tr μμσ''=+X AX A A ; (3)若0μ=,2I σ∑=,则()()2E tr σ'=X AX A 。
①
称为互协方差矩阵,描述随机向量之间的线性相关关系。
§3 多元正态分布及其推广①
多元正态分布是多元统计分析的基础,其地位如同一元统计分析中的一元正态分布一样。
把我们熟悉的一元正态分布向多元推广,在多元分析中起着十分重要的作用。
多元统计中的大多数方法都是基于数据从一个多元正态分布生成的假设。
虽然实际的数据从来不会恰好是多元正态的,然而正态分布常常是“真实的”总体分布的一种有效近似。
正态分布的重要性在于它的双重作用,既可作为某些自然现象总体模型,又可作为许多统计量近似的抽样分布。
一、多元正态的概率密度及其性质
1.多元正态概率密度
多元正态分布是一元正态向2
p≥维的推广。
定义:若随机变量X的概率密度函数为
()2
2
1
(),
2
f x x x
μ
σ
⎧⎫
---∞<<+∞
⎨⎬
⎩⎭
则称X具有均值为μ,方差为2σ的正态随机变量,记为2
~(,)
X Nμσ。
定义:若p维随机向量()
1
,,
p p
X X'
=
X的密度函数为
()()()
1
11/2
11
()(,,)exp,
2
p
p p
f X f x x X X X R
μμ
-
⎧⎫
'
==--∑-∈
⎨⎬
⎩⎭
∑
其中()
1
,,
p
μμμ'
=,∑是正定矩阵,则称X服从p元正态分布,记作:~(,)
p
X Nμ∑。
NOTE:①当1
p=时,即为一元正态分布密度函数;
②μ为X的均值,∑为X的协方差矩阵;
③当0
∑=时,该定义有缺陷,采取下面的定义方式。
定义:独立标准正态变量
1
,,
p
X X的有限组合
11
1
m p m
m m
Y X
Y A
Y X
μ
⨯⨯
⎛⎫⎛⎫
⎪ ⎪
==+
⎪ ⎪
⎪ ⎪
⎝⎭⎝⎭
称为m维正态随机向量,记为~(,)
m
Y Nμ∑,其中AA'
∑=。
NOTE:①这种定义是用多个正态变量的任意线性组合给出多元正态随机向量的定义,其优点是多元正态的某些性质,可用一元正态性质得到;
①除多元正态分布,还有其它许多重要的多元分布,如:椭球等高分布簇、多元指数型分布簇、其它一些多元分布(这些多元分布可以由一元分布推广而得到,主要的推广方法有:直接推广法、共成分推广法、随机推广法)。
②除此之外,还有特征函数的定义。
重要特例:二元正态分布
重要的参数有:121122,,,,μμσσρ。
当0ρ=时,1X 与2X 不相关,此时有
221122121222
1212()()(,)exp ()()2222X X f X X f X f X μμσσπσπσ⎧⎫
⎧⎫
----=⎨⎬
⎨⎬⎩
⎭⎩⎭ 所以1X 与2X 相互独立。
即对于二元正态变量来说,1X 与2X 不相关⇔1X 与2X 相互独立。
% 多元正态概率密度函数图——源代码
mu=[1,-1];
Sigma = [1 0; 0 1];
X = mvnrnd(mu,Sigma,10000); p = mvnpdf(X,mu,Sigma); plot3(X(:,1),X(:,2),p);
二、
多元正态变量的基本性质
1.
若()1,,~(,)p p p X X N μ'=∑X ,∑是对角矩阵,则1,,p X X 相互独立;
2. 若~(,)p N μ∑X ,则对于任意p 维向量α,有~(,)p N ααμαα'''∑X ;反之,若对于任意p 维向量α,有~(,)p N ααμαα'''∑X ,则~(,)p N μ∑X ;
推论:若~(,)p N μ∑X ,则对于任意的i ,有~(,),1,,i i ii X N i p μσ=且
~(,2)i j i j ii jj ij X X N μμσσσ±±+±
成立。
即正态变量的任何一个分量仍是正态变量,任何两个分量的和与差均为正态变量;
3. 若~(,)p N μ∑X ,m p A ⨯为常数矩阵,m d 为m 维常数向量,则
1~(,)m p p m Y A N A A A μ⨯⨯'=∑X ,且1~(,)m p p m m Y A d N A d A A μ⨯⨯'=++∑X ,即正态随机向量的线性函数还是正态的;
推论1:若~(,)p N μ∑X ,则()1/2~(,)p Y X N I μ-=∑-0;
推论2:若~(,)p N μ∑X ,则()()12
~p X X μμχ-'-∑-; 4. 若~(,)p N μ∑X ,将,,X μ∑可以作如下分割
(1)(2)q p q X X X -⎛⎫= ⎪⎝⎭,(1)(2)q p q
μμμ-⎛⎫= ⎪⎝⎭,11122122q
p q -∑
∑⎛⎫∑= ⎪∑∑⎝⎭ 则(1)(1)11~(,)q X N μ∑,(2)(2)22~(,)p q X N μ-∑;
例如:若3~(,)N μ∑X ,记1(1)2(2)3X X X X X X ⎛⎫⎛⎫ ⎪== ⎪ ⎪⎝⎭ ⎪⎝⎭,1(1)
2(2)3μμμμμμ⎛⎫⎛⎫ ⎪== ⎪ ⎪⎝⎭ ⎪⎝⎭,111213111221222321
22313233σσσσσσσσσ⎛⎫∑∑⎛⎫
⎪∑== ⎪ ⎪∑∑⎝⎭ ⎪⎝⎭
,则 1(1)(1)2112~(,)X X N X μ⎛⎫=∑ ⎪⎝⎭,其中1(1)2μμμ⎛⎫= ⎪⎝⎭,1112112122σσσσ⎛⎫∑= ⎪⎝⎭
;()(2)(2)
3122333~(,),X X N N μμσ=∑=。
5. 设(1)(2)~(,)q
p p q
X X N X μ-⎛⎫
=∑ ⎪⎝⎭,则(1)X 与(2)X 相互独立⇔120∑=。
6.
设(1)(1)11~(,)q X N μ∑,(2)(2)22~(,)p q X N μ-∑,且(1)X 与(2)X 相互独立,则
(1)(1)11(2)(2)220~,0q p q X N X μμ+-⎛⎫∑⎛⎫
⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪∑⎝⎭⎝⎭⎝
⎭⎝⎭
NOTE :①多元正态分布的任何边缘分布都是正态分布,但反之不真; ②由于()(1)(2)12,Cov X X ∑=,故120∑=表示(1)X 与(2)X 不相关; ③对于多元正态变量来说,(1)X 与(2)X 不相关与独立是等价的;
④要判断一批数据是否来自正态总体较困难,但反过来却有简易的方法①; ⑤对于非正态数据可以通过幂指数变换和Box-Cox 变换成近似正态。
三、
多元正态分布的参数估计
设~(,)p N μ∑X ,其均值向量μ和协差阵∑未知。
1.多元样本的概率及表示
①
如果X 服从多元正态分布,则它的每个分量必服从一元正态分布。
一元正态分布的检验方法比较成熟,常用的有:直方
图,P-P 图,Q-Q 图,正态概率纸,K-S 检验,卡方拟合优度检验等。
从多元总体中随机抽取n 个个体:(1)(2)(),,,n X X X ,若它们相互独立且与总体同分布,则称(1)(2)(),,,n X X X 为该总体的一个多元随机样本,简称简单样本。
将n 个样品对p 个指标进行观测,结果如下
11121(1)
21
222(2)
1
2
()p p n n np n X X X X X X X X X X X X X '⎛⎫⎛⎫ ⎪ ⎪'
⎪ ⎪==
⎪ ⎪ ⎪ ⎪ ⎪ ⎪'⎝⎭⎝⎭
① 其中,()()1,,i i ip X X X '=。
把每个样品()i X 看作一个随机向量,因此X 就是一个随机矩阵,X 为观测矩阵或样本资料库。
NOTE :①多元样本中的每个样品,对p 个指标的观测值往往有相关关系,但不同样品之间的观测值一定相互独立;
②多元分析处理的多元数据一般都属于横截面数据(PANEL DATA ),如果是时序数据则属于多元时间序列分析的范畴。
2.多元样本的数字特征②
定义:设(1)(2)(),,,n X X X 为来自p 元总体的样本,其中()()1,,i i ip X X X '=(1,,i n =)
(1)样本均值可定义为
()()11
1,,n
i p i X
X X X n ='=∑
(2)样本离差阵可定义为
()()()11()()1111i n
n
p p
i i i ip p i i ip p X X S X X X X X X X X X X ⨯==⎡⎤⎛⎫-⎢⎥
⎪
'--=--⎢⎥ ⎪⎢⎥ ⎪
-⎝⎭
⎣⎦
∑∑
()()()
()()()()()
()()()()()()
()2
111
1221
12
22112
22212
1122i i i i ip p n i i i i ip p i ip
p i ip
p i ip p X X X
X X X X
X X X X X X X X
X X
X X X X X X X X
X X X X X =⎛⎫
----- ⎪ ⎪
----- ⎪= ⎪
⎪ ⎪-----⎝⎭
∑
① 行代表样品,列代表指标。
②
样本均值向量和样本协差阵也可用样本资料阵X 直接表示,详见教材P26。
()11121212221
2
p p ij p p p p pp S S S S S S S
S S S ⨯⎛⎫ ⎪ ⎪
== ⎪ ⎪ ⎪⎝⎭
(3)样本协差阵可定义为
()()(
)()()1
11n
p p i i ij p p i V
S X X X X V n n ⨯⨯='=--=∑ (4)样本相关阵可定义为 ()ij p p
R r ⨯ ij ii jj
ii jj
V S r V V S S =
=
3.多元正态分布参数的极大似然估计及其基本性质 (1)极大似然估计的定义、基本步骤 定义
步骤:STEP01:求样本似然函数; STEP02:求对数似然函数; STEP03:求似然函数的极大化。
(2)一元正态分布参数的极大似然估计
(3)多元正态分布参数的极大似然估计
为了方便地求解参数地极大似然估计,先引入如下引理。
引理:设B 为p p ⨯阶对称正定矩阵,常数0b >,则对任意正定矩阵∑,有
(
)1
()/2
112bp
tr B bp b
b e b e B
--∑
-≤
∑
仅当1
2B b
∑=
时,等号成立。
定理:设()~,p X N μ∑,12,,,n X X X 为来自X 的样本,则
ˆX μ=,()()111ˆn i i i n X X X X S n n
=-'∑=--=∑ 分别是μ和∑的极大似然估计量,其观测值称为μ和∑的极大似然估计值。
(4)极大似然估计量的基本性质
①无偏性:
()E X μ=,即X 是μ的无偏估计; 11
n E S n n -⎛⎫=∑ ⎪⎝⎭
,即1S n 不是∑的无偏估计;
而11E S n ⎛⎫=∑
⎪-⎝⎭
,即1
1S n -是∑的无偏估计; ②X ,
1
1S n -分别是μ,∑的有效估计; ③X ,1S n
(或
1
1
S n -)分别是μ,∑的一致估计(相合估计)。
样本均值向量和样本离差阵在多元统计推断中具有十分重要的作用,并有如下结论: 定理:设X 和S 分别是正态总体(),p N μ∑的样本均值向量和离差阵,则
(1)1
~,p X N n
μ⎛⎫
∑ ⎪⎝
⎭
; (2)离差阵S 可以写为:1
1n i S Z Z αα
-='=∑,其中1,,n Z Z 独立同分布于()0,p N ∑; (3)X 与S 相互独立;
(4)S 为正定矩阵的充要条件是n p >。
四、
多元正态分布的变形形式①
在一元统计分析中,我们有2χ,t ,F 和beta 等一些基本统计量分布,以这些分布作为基础对一元统计问题进行推断。
和一元情形一样,多元统计分析也需要建立一些基本的多元统计量分布作为多元统计问题分析的基础。
Wishart 分布,2T 分布和Λ分布等分布就是其中的最重要的几种。
Wishart 于20世纪20年代导出Wishart 分布,后来又由Hotelling, Wilks, 许宝禄等人建立了2T 和Λ等分布,这些为多元分析奠定了基础。
1.Wishart 分布及其性质
首先回顾2χ分布定义。
如果,1,2,,i x i n =为独立同分布于2(0,)N σ,则2221~n
i n i x σχ=∑;如果
,1,2,
,i x i n =相互独立,且各自的分布分别为2(,)i N μσ,则()222
01~n
i n i x σχλ=∑,其中
201n
i i λμ==∑。
(1)定义(两种形式的定义)
首先从形式上推广,有矩阵形式的定义。
定义:设()()()1,,~,,1,2,,i i ip p i X X X N i n μ'=∑=且相互独立,则由()i X 组成的随机矩阵
①
在介绍这些分布之前,应该首先介绍二次型的分布。
()()1
n
p p i i i W X X ⨯='=∑
的分布称为非中心Wishart 分布,记为(),,p W n Z =∑。
其中,,n p 称为分布的自由度;
()()111,
,,
,n
i in i in i i i Z μμμμμμ=''==∑为非中心参数。
当0Z =时,该分布称为中心的Wishart 分
布,记为(),p W n =∑。
NOTE :显然Wishart 分布是2χ分布在p 维正态情况下的推广,因为当1p =时,
()21,,W n Z σ=就是22
()n
Z σχ,其中Z μμ'=为非中心参数。
其次给出它的密度形式定义,这是由Wishart (1928)导出的。
这里只给出它的中心分布的密度形式,非中心分布的密度比它复杂。
定义:设()ij p p W w ⨯=为p 阶对称随机矩阵,并以概率1正定。
如果其上对角块元素
1122,,
,pp a a a 有密度函数
()()1/2(1)
11122/2/2
(1)/4
11exp 2,,,,012
(1)2n p pp p n np p p i W
tr W f a a a W n i π
----=⎧⎫
-∑⎨⎬
⎩⎭=
>⎛⎫
∑Γ-+ ⎪
⎝⎭
∏
(2)基本性质
性质1:若()1~m W W ∑,()2~n W W ∑,且1W 与2W 相互独立,则()12~m n W W W ++∑。
性质2:若()~m W W ∑,则()~m CWC W C C ''∑。
2.Hotelling 2T 分布
在一元统计中,若12,,,n X X X 来自总体2(,)N μσ的样本,则统计量:
~(1)t t n =
- 其中,2
211ˆ()1n i i X X n σ==--∑
~(0,1)X N ,222
122
ˆ(1)(1)~n n S n σχσσ---=,则
1~n X t -=
显然,
()21
2
22()ˆ()()ˆn X t n X X μμσμσ
--'==--
其中,()21~0,n
X N μσ- (1)定义
定义:设~(,)p X N μ∑,~(,)p S W n ∑且X 与S 相互独立,n p ≥,则称统计量
2T nX SX
'=
的分布为非中心Hotelling 2T 分布,记为22~(,,)T T p n μ。
NOTE :①该分布首先由Harold Hotelling 提出,我国统计学家许宝禄于1938年用不同的方法也导出了2T 分布的密度函数;
②由定义可知,该分布是一元t 分布的多元推广。
(2)性质
在一元统计中,若统计量~(1)t t n -分布,则2~(1,1)t F n -分布,即把t 分布的统计量转化F 统计量来处理,在多元统计分析中2T 统计量也有类似性质。
若~(,)p X N μ∑,~(,)p S W n ∑且X 与S 相互独立,n p ≥,令2T nX SX '=,则
2
1~(,1)n p T F p n p np
-+-+ 3.Wilks Λ分布
回顾一元时的Beta 分布。
设2~n a χ,2
~m b χ,且相互独立,则
()1122
~,a
n m a b
β+。
下面引入多元情形下的类似分布。
(1)定义
定义:设()11~,p A W n ∑,1n p ≥,()22~,p A W n ∑,0∑>,且1A 与2A 相互独立,则称
112
A A A Λ
+
Λ为Wilks 统计量,Λ的分布为Wilks 分布,简记为12~(,,)p n n ΛΛ。
其中,12,n n 为自由度。
NOTE :①当1p =时,显然Λ正好是一元统计中的Beta 分布,因此它是Beta 分布在多元情形的推广;
②Λ分布还有一些非常特殊的形式;
③在实际应用中,经常把Λ统计量化为2T 统计量进而转化为F 统计量,利用F 统计量来解决多元统计分析中有关检验问题。
事实上,当21n =时,用n 代替1n ,可以得到它们之间的关系如下:
2
11(,,1)1(,)
n p n n p T p n Λ=
>+
(2)性质
性质1:2
121(,,)~n i i p n n u =Λ∏,其中()1122
~(),i u n i p p β+-,1,2,,i m =相互独立。
性质2:12(,,)p n n Λ和212(,,)n n n p p Λ+-具有相同的分布。
五、
多元变量的正态性检验
1.X 和S 的抽样分布
定理:设~(,)p X N μ∑,12,,,n X X X 是来自总体X 的样本,有
11n i i X X n ==∑,()()1
11n
i i i S X X X X n ='=---∑ 则:(1)1~(,)p n X N μ∑; (2)1(1)~()n n S W --∑; (3)X 与S 是相互独立的。
2.X 和S 的大样本特性
在一元中,无论总体的分布类型如何,由中心极限定理知,样本均值近似服从正态分布,只要样本容量n 充分大。
这个结论对于多元也成立。
定理(中心极限定理):设12,,,n X X X 是来自任何有均值μ与有极限协方差矩阵∑的总体的独立观测结果,则对大样本容量有
)
~(0,)p X N μ-∑
又因为当n 充分大时,S 依概率收敛到∑,从而
()()12~p n X S X μμχ-'--
3.多元正态分布的检验
根据正态分布的性质,多元正态分布的边缘分布是正态分布,且多元正态密度的轮廓线是椭球面,因此,可以提出下面几个问题:
(1)X 的每个分量的边缘分布是否是正态分量i X 的几个线性组合是否是正态 (2)根据各种特征的观测结果所作出的散布图,是否呈现出正态总体期望的椭圆形状 (3)是否存在应该进行检验以确保精确度的“杂乱”观测值
问题可以转化为一元正态性的检验和二元正态性的检验,现将其叙述如下: 二元正态分布的检验方法: 方法1:轮廓线
如果观测值是一个从多元正态分布生成的,则每个二元分布是正态变量,其常数密度轮廓线应是椭圆;散布图显示一个近乎椭圆的形状,从而与这个结构一致。
方法2:卡方图
在判断一个数据集的联合正态性时,一种更正式一些的方法是基于广义平方距离:
()()21,1,2,
,j j j d X X S
X X j n -'=--=
其中12,,,n X X X 是样本观测值。
当总体是多元正态的且n 与n p -都很大时,
()()212
~p d X X S X X χ-'=--
构造卡方图的方法:。