多元统计正态性检验作业

合集下载

实验三 多元正态总体检验

实验三 多元正态总体检验

实验三 多元正态总体检验一、实验目的1.掌握单一多元正态总体均值的检验;2.掌握两个多元正态总体均值向量的检验(区分协差阵是否相等)。

3.掌握多元方差分析的思想和操作。

二、实验内容:1.检验2008年西部9个省区城镇居民大类消费与全国平均水平有无显著差异。

2.分析我国上市公司电力、煤气及水生产供应行业和房地产行业在经营绩效(净资产收益率、总资产报酬率、资产负债率和总资产周转率)方面是否存在明显差异,抽样数据见 上市公司效绩指标.xls 。

3.一套生产线同时产出三种产品,分析温度和时间对总体产出率的影响,以及温度和时间对不同产品产出率的影响,数据见 三种产品产出率.sav三、实验使用的仪器设备、软件本实验需要上机实验,借助Excel 的数据处理和矩阵运算功能以及SPSS 加以实现。

四、实验记录与数据处理要求在实验报告中,每位学生应该记录下主要的数据处理步骤和程序运行结果,并对运行结果进行分析,并给出完整的实验思考题的解答情况。

五、实验中的注意事项1.注意判断检验的类型,选择相应的检验方法对数据进行分析;2.在使用矩阵运算公式时,必须用组合键Ctrl+Shift+Enter 确认,否则会计算出错。

六、实验的基本原理、数据处理及实验步骤(一)多元总体的单样本检验(协差阵未知)示例:人的出汗多少与人体内钠和钾的含量有一定的关系。

今测20名健康成年女性的出汗多少(X1)、钠的含量(X2)和钾的含量(X3),其数据如图1所示。

试检验 )10 ,50 ,4(:00'==μμH ,01:μμ≠H其检验步骤如下:1.在工作表列ABCD 中输入样本数据,如图1所示;2.选择样本数据区域B2:D21,选择命令“插入”→“名称”→“定义”,输入名称X ,然后按“添加”按钮,再“确定”,将数据区域定义为X ;3.在F1:F5中输入各标题,如图所示;4.在G1:I1中输入检验值,用Z 0表示;5.在G2中输入=AVERAGE(B2:B21),再往右复制到I2处,计算出样本平均值向量;6.计算样本值与检验值的差,在G3中输入=G2-G1,并往右复制公式到I3处;7.在G4输入样本量n 的值20,在G5输入指标个数p 的值3;8.选择区域F1:I3,选择命令“插入”→“名称”→“指定”,选定“最左列”复选框后再确定;选择区域F4:G5,选择命令“插入”→“名称”→“指定”,选定“最左列”复选框后再确定,将最左列的标题文字定义为右侧区域的名称。

第3章统计实验(多元正态总体检验)

第3章统计实验(多元正态总体检验)

实验零多元正态总体检验(均值向量检验)1.实验目的:本实验讨论利用多元正态总体检验中的均值向量检验方法去判断满足多元正态分布的总体的均值是否等于预先判断的向量(单正态总体检验)或判断两个独立的、满足多元正态分布的总体的均值是否相等(双正态总体检验)。

通过该实验,能够起到如下的效果:(1) 理解多元正态总体检验中的均值向量检验方法的作用、思想、数学基础、方法和步骤;(2) 熟悉如何利用多元正态总体检验中的均值向量检验方法,提出问题、分析问题、解决问题、得出结论;(3)会调用SAS软件实现多元正态总体检验中的均值向量检验方法的各个步骤,根据计算的结果进行分析,得出正确的结论,解决实际的问题。

2.知识准备:多元正态总体检验中的均值向量检验是从判断满足多元正态分布的总体的均值是否等于预先判断的向量(单正态总体检验)或判断两个独立的、满足多元正态分布的总体的均值是否相等(双正态总体检验)。

其思想和步骤是:1.假设“需判断的总体均值等于预先判断的向量(单正态总体检验)”或“需判断的两个总体的均值相等(双正态总体检验)”;2.在该假设下,构造适当的统计量并给出其分布;3.根据观测数据算出其统计量的值;4.根据预先确定的检验水平查阅相应的分布表确定临界值和拒绝域;5.根据结果判断接受或拒绝原假设,得出结论。

(具体见书【1】第三章)3.实验内容:一、单正态总体检验:人出汗多少与人体内钠、钾含量有一定关系。

今测20名健康成年女性出汗多少(X1)、钠含量(X2)、钾含量(X3),其数据如下表1:表1 健康成年女性出汗情况的基本数据序号X1 X2 X3 序号X1 X2 X31 3.7 48.5 9.3 11 3.9 36.9 12.72 5.7 65.1 8 12 4.5 58.8 12.33 3.8 47.2 10.9 13 3.5 27.8 9.84 3.2 53.2 12 14 4.5 40.2 8.45 3.1 55.5 9.7 15 1.5 13.5 10.16 4.6 36.1 7.9 16 8.5 56.4 7.17 2.4 24.8 14 17 4.5 71.6 8.28 7.2 33.1 7.6 18 6.5 52.8 10.99 6.7 47.4 8.5 19 4.1 44.1 11.210 5.4 54.1 11.3 20 5.5 40.9 9.4利用多元正态总体检验中的单正态均值向量检验方法判断“(X1,X2,X3)的均值是否等于(4,50,10)”【1】(假设总体服从正态分布,分别取检验水平为0.05、0.01)。

应用多元统计分析作业

应用多元统计分析作业

多元统计分析实验报告实验课程名称多元统计分析实验项目名称多元统计理论的计算机实现年级 2013专业应用统计学学生姓名侯杰成绩理学院实验时间:2015 年05 月07 日学生所在学院:理学院专业:应用统计学班级:9131137001代码及运行结果分析1、均值检验问题重述:某医生观察了16名正常人的24小时动态心电图,分析出早晨3小时各小时的低频心电频谱值(LF)、高频心电频谱值(HF),数据见压缩包,试分析这两个指标的各次重复测定均值向量是否有显著差异。

代码如下:Tsq.test<-function(data,alpha=0.05){data<-as.matrix(read.table("ch37.csv",header=TRUE,sep=",")) #读取数据xdat<-data[,2:4];xbar<-apply(xdat,2,mean); #计算LF指标的均值ydat<-data[,5:7];ybar<-apply(ydat,2,mean); #计算HF指标数据xcov<-cov(xdat); #计算LF样本协差阵ycov<-cov(ydat); #计算HF样本协差阵sinv<-solve(xcov+ycov);#求逆矩阵Tsq<-(16+16-2)*t(sqrt(16*16/(16+16)*(xbar-ybar)))%*%sinv%*%sqrt(16*16/(16+16)*(xbar-ybar)); #计算T统计量Fstat<-((16+16-2)-3+1)/((16+16-2)*3)*Tsq; #计算F统计量pvalue<-as.numeric(1-pf(Fstat,3,16+16-3-1));cat("p值=",pvalue,"\n");if(pvalue>0.05) #结果输出cat('均值向量不存在差异')elsecat('均值向量存在差异');}运行结果及分析:通过运行程序,我们可以得到如下结果:> Tsq.test()p值= 1.632028e-14均值向量存在差异即LF与HF这两个指标的各次重复测定均值向量存在显著差异。

R语言版应用多元统计分析多元正态总体的假设检验

R语言版应用多元统计分析多元正态总体的假设检验

应用多元统计分析第3章 多元正态总体的假设检验- 1-•在一元正态总体 中,关于参数 的假设检验涉及到一个总体和多个总体情况,推广到多元正态总体 ,关于参数 的假设检验问题也涉及一个总体和多个总体情况。

本章我们只讨论关于均值向量 的假设检验问题。

•在多元统计中,用于检验 的抽样分布有维希特(Wishart)分布、霍特林(Hotelling)分布和威尔克斯(Wilks)分布,它们都是由来自多元正态总体 的样本构成的统计量。

在第2章中,我们已经讨论了维希特分布的定义和性质,本章我们讨论后两个统计量的分布。

霍特林 分布在一元统计中,若 ,且 相互独立,则或等价地下面把 的分布推广到多元正态总体。

定义3.1 设 , ,其中 ,且 与 相互独立。

则称统计量 为 统计量,其分布称为自由度为n的霍特林 分布,记为分布的性质性质1 设 是来自正态总体 的随机样本, 和A 分别是样本均值向量和样本离差阵,则性质2 分布与F分布的关系为:若 则分布的性质性质3 设 是来自正态总体 的随机样本, 和A 分别是样本均值向量和样本离差阵,记则性质4 分布只与n,p有关,而与 无关。

威尔克斯 分布定义3.2 设 ,称协方差阵 的行列式 为的广义方差。

若 是来自总体 的随机样本,A为样本离差阵,则称或 为样本广义方差。

定义3.3设 ,这里 ,且 与 独立,则称广义方差比为 统计量,其分布称为威尔克斯 分布,记为 。

当p=1时, 分布正是一元统计中参数为 的贝塔分布,即。

分布的性质性质1当 时,若 ,则当 时,若 ,则当p=1时,当p=2时,若 ,则当 时有下列极限分布其中 。

下面是 分布的两个有用性质。

性质6 若 ,则存在 , 且 之间相互独立,使得性质7 若 则单总体均值向量的假设检验设总体为 , 为来自该总体的随机样本。

欲检验下列假设:其中 为已知常数向量。

1. 当 已知时均值向量的假设检验此时于是有若检验统计量取为则当原假设 成立时, 。

多元统计分析习题3.6

多元统计分析习题3.6

习题3.61992年美国总统选举的三位候选人为布什、佩罗特、克林顿。

从支持三位候选人的选民中分别假定三组都服从富哦元正态分布,检验这三组的总体均值是否有显著性差异(a=0.05).解:分析:该题自变量为三位候选人,因变量为年龄段和受教育程度。

从自变量来看要进行方差分析,从因变量来看是二元分析,所以最终确定使用多变量分析.具体操作:1.打开spss,录入数据,如图,被投票人:1、布什 2、佩罗特 3、克林顿2.在spss窗口中选择分析——一般线性模型——多变量,调出多变量分析主界面,将年龄段和受教育程度移入因变量框中,被投票人移入固定因子框中.3.结果解释:协方差矩阵等同性的 Box检验aBox 的 M 7.574F 1.198df1 6df2 80975.077Sig. .304检验零假设,即观测到的因变量的协方差矩阵在所有组中均相等。

a. 设计 : 截距 + 被投票人结果说明:此Box检验的协方差矩阵为三位候选人每个人的支持者的年龄段和受教育程度的协方差矩阵。

因为sig>0.05,所以差异不显著,即各个因变量的协方差矩阵在所有三个候选人组中是相等的。

可以对其进行多元方差分析。

多变量检验a效应值 F 假设 df 误差 df Sig.截距Pillai 的跟踪.922 330.834b 2.000 56.000 .000 Wilks 的 Lambda .078 330.834b 2.000 56.000 .000 Hotelling 的跟踪11.815 330.834b 2.000 56.000 .000 Roy 的最大根11.815 330.834b 2.000 56.000 .000被投票人Pillai 的跟踪.226 3.637 4.000 114.000 .008 Wilks 的 Lambda .779 3.725b 4.000 112.000 .007 Hotelling 的跟踪.277 3.807 4.000 110.000 .006 Roy 的最大根.249 7.109c 2.000 57.000 .002a. 设计 : 截距 + 被投票人b. 精确统计量c. 该统计量是 F 的上限,它产生了一个关于显著性级别的下限。

多元统计练习题.doc

多元统计练习题.doc

多元统计练习题第一章基础统计.数据文件:学生考试成绩。

1.将全体学生的考试成绩按以下标准分为五级:优:90分(含)以上;良:80分(含)以上不足90分;中:70分(含)以上不足80分;及格:60分(含)以上不足70分;不及格:60分(不含)以下。

2.统计每一个等级学生的人数,及占全体学生的比率:3.统计每一个班级中各个等级的学生人数,及占所在班级人数的比率;4.按性别统计各个等级的学生人数及每个等级的平均分、最高分、最低分;5.全体学生中,及格(含)以上的学生人数占全体学生的比率%;80%的学生成绩不低于分?6.生成全体学生成绩直方图;7.用P-P图或Q-Q图观察学生成绩是否来自正态分布。

并结合下一道题(8)的结果来看用P-P图或Q-Q图观察分布的局限性。

8.用K-S检验法,以0.05显著性水平,检验全体学生成绩是否来自正态总体(n或y),检验统计量值z=, 它对应的水平(近似)值Asymp. Sig =。

如果是0.1的显著性水平呢?二.数据文件:公司职工。

1.填表:2.填表:3.对全体职工按年龄(age)分组,标准如下:第1组,青年:age<35;第2 组,中年:35<age<60;第3组,老年:ageN60.填表:4.的%;中年女职工的人数为人,占全体女职工人数的%。

5.中年男办事员的平均当前薪金(salary)为元,他们中的最低受教育年限(educ)是年。

7.该公司80%的员工当前薪金(salary)不低于元。

8.如果把本文件数据看成某个正态总体的样本,试在0.05的显著性水平下检验:1)不同性别职工的平均受教育年限(educ)有无显著差异?(填y或n);检验统计量值t=,显著性值Sig.=。

2)青年职工与中年职工的平均当前薪金(salary)有无显著差异?(填y或n);检验统计量值t=,显著性值Sig.=。

3 )老、中、青三部分人平均受教育年限(educ)分别是:老年人年,中年人年,青年人年。

多元统计分析试题及答案

多元统计分析试题及答案
_0.872_____
X 1的共性方差h12 =
X 1的方差σ
11
= ___1 注(0.128+0.872)___,
公因子f1对X的贡献g12 = 1.743
备注(0.934^2+(-0.417)^2+0.835^2)__。
5、 设 X i , i = 1,⋯ ,16是 来 自 多 元 正 态 总 体 N p ( µ , Σ ), X 和 A分 别 为 正 态 总 体 N p ( µ , Σ ) 的 样 本 均 值 和 样 本 离 差 矩 阵 ,则 T 2 = 15[4( X − µ )]′ A − 1[4( X − µ )] ~ ___________ 。
2、假设检验问题:H 0 : µ = µ0,H1 : µ ≠ µ0 ⎛ −8.0 ⎞ 经计算可得:X − µ0 = ⎜ 2.2 ⎟ , ⎜ ⎟ ⎜ −1.5 ⎟ ⎝ ⎠ ⎛ 4.3107 −14.6210 8.9464 ⎞ −1 −1 ⎜ S = (23.13848) −14.6210 3.172 −37.3760 ⎟ ⎜ ⎟ ⎜ 8.9464 −37.3760 35.5936 ⎟ ⎝ ⎠ 构造检验统计量:T 2 = n( X − µ0 )′S −1 ( X − µ0 ) = 6 × 70.0741 = 420.445 由题目已知F0.01 (3,3) = 29.5,由是 3× 5 F0.01 (3,3) = 147.5 3 所以在显著性水平α = 0.01下,拒绝原设 H 0
⎛ 16 −4 2 ⎞ 1、设X = ( x1 , x2 , x3 ) ~ N 3 ( µ , Σ), 其中µ = (1,0, − 2)′, Σ = ⎜ −4 4 −1⎟ , ⎜ ⎟ ⎜ 2 −1 4 ⎟ ⎝ ⎠ ⎛x −x ⎞ 试判断x1 + 2 x3与 ⎜ 2 3 ⎟ 是否独立? ⎝ x1 ⎠

多元统计分析试题及答案

多元统计分析试题及答案

多元统计分析试题及答案华南农业⼤学期末试卷(A 卷)2006学年第2学期考试科⽬:多元统计分析考试类型:(闭卷)考试时间:120 分钟⼀、填空题(5×6=30)22121212121~(,),(,),(,),,1X N X x x x x x x ρµµµµσρ∑==∑=+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________iiii XN i W XXµµµ='∑=--∑ 、设则=服从。

()1234433,492,3216___________________X x x x R -?? ?'==-- ? ?-?=∑、设随机向量且协⽅差矩阵则它的相关矩阵________________。

(),123设X=xx x 的相关系数矩阵通过因⼦分析分解为211X h =的共性⽅差111X σ=的⽅差21X g =1公因⼦f 对的贡献121330.9340.1280.9340.4170.8351100.4170.8940.027 0.8940.44730.8350.4470.1032013R ?-?-=-=-+5,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N TX A X µµµµ-=∑∑'=-- 、设是来⾃多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

⼆、计算题(5×11=50)12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x µµ-??'=∑=-∑=-- --??+、设其中试判断与是否独⽴?11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.62103.17237.14.5X S µ--'=-?? ?==-- ? 0、对某地区农村的名周岁男婴的⾝⾼、胸围、上半臂围进⾏测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

多元数据的正态性检验

多元数据的正态性检验

多元数据的正态性检验摘 要:本文对多元正态性检验的两种主要方法——2χ统计量的Q-Q 图检验法和主成分检验法进行了讨论,介绍其基本原理、具体实施步骤,通过实例分析进行应用研究,并比较它们的优劣,发现主成分检验法的实用性和应用价值更强. 关键词:多元正态性 2χ统计量 Q-Q 图检验法 主成分检验法The Normality Test for Multivariate DataAbstract: In this paper, we discuss two main methods of multiple normal tests, Q-Q chart test and principal component test, introduce the basic principle and the specific implementation steps, research through studying the case, and compare their advantages and disadvantages. We found that the principal component test is better than Q-Q chart test in practicality and applied value. Key words: Multivariate normality; Chi-square statistic; Q-Q char test; Principal component test引言正态分布在学习中是一种很重要的分布,在自然界中占据着很重要的位置,它能描述许多随机现象,从而充当一个真实的总体模型.尽管在学习中我们总是碰到很多问题的总体服从正态分布,然而,在一个实际问题中,总体一定是正态分布吗?一般的讲,所作统计推断的结论是否正确,取决于实际总体与正态总体接近的程度如何.因此,建立一些方法来检验多元观测数据与多元正态数据的差异是否显著是十分必要的.如今,一元数据的正态检验的理论已相当成熟,但对于多元数据的正态性检验问题还处在摸索前进的阶段,没有形成行之有效、有足够说服力的检验方法.本文将在第一节中介绍文中用到的一元正态性检验的两种基本方法:图方法和矩法;第二节中介绍2χ统计量的Q-Q 图检验法基本原理和检验步骤;第三节中介绍主成分正态检验法的基本原理和检验步骤;第四节中通过两个实例做应用分析;第五节中对这两种方法在应用中的优劣做比较分析.1 一元正态性检验的方法鉴于一元数据正态性检验的多样性,本文不一一介绍,只介绍本文中用到的2χ检验法和偏峰检验法.1.1 图方法设12,,...,n x x x 是来自总体的X 随机样本,检验),(~:20δμN X H .如果没有关于样本的附加信息可以利用,首选推荐的是利用正态概率纸画图.它让人们立即看到观测的分布是否接近正态分布.对于一张正态概率纸,它的横轴的刻度是均匀的,纵轴按标准正态分布的P 分位数均匀刻度,标上相应的P 值.正态概率纸上的坐标轴系统使正态分布的分布函数呈一条直线.利用正态概率纸检验一组观测值是否服从正态分布,可以按如下步骤进行: 把n 个观测值按非降次序排列成12n x x x ≤≤≤.然后把数对(3/8,1/4k k x n -+)(1,2,,k n =)点在正态概率纸上.如果所画的n 个点明显地不成一条直线,则拒绝原假设.如果这些点散布在一条直线附近,则可以粗略地说,样本来自正态分布.这时,可以凭直觉配一条直线,使它离各点的偏差尽可能地小,其中在纵轴刻度为50%附近各点离直线的偏差要优先照顾,使其尽可能地小,并且使直线两边的点数大致相等.如果发现得到的点系统地偏离一条直线,在拒绝原假设后,可以考虑备择假设的类型.特别,如果几个较大的值明显地倾向于由其它值确定的直线的下方,作log y x =或y 等变换可能使图形更符合一条直线.这种方法也就是人们常说的P-P 图法或Q-Q 图法. 1.2 矩法矩法,也称动差法、偏峰检验法,它是利用中心距的概念引入的两个量,正态分布的这两个量有着很好的特征,因此,常用这两个量进行正态性检验.总体X 的偏度是刻画X 分布的对称程度的量,记为31322()[()]E X EX G E X EX -=- , (1.2.1)10G =,X 的分布对称;10G >,称为正偏;10G <,称为负偏.总体X 的峰度是衡量X 的概率分布密度陡峭程度的量,记为4222()[()]E X EX G E X EX -=- , (1.2.2)正态分布的偏度为0,峰度为3.一个分布如果1G 远离0或2G 远离3,则可认为它与正态分布相差很大,为了检验样本12,,...,n x x x 是否来自正态总体,先计算偏度和峰度的估计量3113321()(())nii n i i xx g x x ==-=-∑∑,412321()(())nii n i i xx g x x ==-=-∑∑ .当总体服从正态分布且样本容量n 很大时,统计量1g 和2g 近似正态分布,且有1()0E g ≈,224()Var g n≈,如果以下不等式1g -≤23g --≤只要有一个不成立,就认为总体不服从正态分布[4].2 2χ统计量的Q-Q 图检验法2.1 2χ统计量的Q-Q 图检验法的原理为了充分解释2χ统计量的Q-Q 图检验法的基本原理,先引入分位数和经验分布函数的概念以及一个重要结论.定义2.1 对10<<p ,称满足不等式p x X P ≥≤)(,p x X P -≥≥1)(的x 值为随机变量X 的P 阶分位数.如果X 是连续型的,那么P 阶分位数就是满足方程p x F =)(的x 的值.如果X 是离散型的,那么,P 阶分位数存在唯一性的问题.因此采用以下定义更准确:设X 的分布函数为)(x F ,对10<<p ,定义x 的P 阶分位数为}{p x F x xp≥=)(:inf .所以)(1p F x p -=就是分布函数的反函数,且只存在唯一的P 阶分位数,即()x F 的左侧分位数.分位数是随机变量的重要数字特征,在描述数据的分布时非常有用.定义2.2 设()n x x x ,,21是总体X 的一组样本观察值,将它们按大小顺序排列为)()2()1(n x x x ≤≤≤ ,x 为任意实数,称函数(1)()()(1)()0,(),1,k n n k k n x x F x x x x x x +⎧<⎪=≤≤⎨⎪≥⎩, 为经验分布函数.经验分布函数的图像是一条阶梯曲线,若观察值不重复则阶梯的每一个跃度都是1n ,若重复,则按1n的倍数跳跃上升.对任意的实数x ,()n F x 的值等于样本的观察值12,,,n x x x 中不超过x 的频率,由频率与概率的关系,()n F x 可以作为总体X 的分布函数()F x 的一个近似值,随n 的增大,近似程度越好.结论2.1 设),(~∑μp N X ,0>∑,则),(~21δχp X X -∑',其中1'δμμ-=∑.证明:因为0∑>,由正定矩阵的分解可得'CC ∑=(C 为非退化方阵),令1Y C X -=,即X CY =,则),(~1p P I C N Y μ-,因'CC ∑=,所以()1,p p YN C I μ-,且有),(~211δχp Y Y CY C Y X X '=∑''=∑'--,其中()()111''C C δμμμμ---==∑.下面介绍2χ统计量的Q-Q 图检验法的原理,设()1(,...;)(1,,)p X X X a n ααα'==为来自p 元总体X 的随机样本,检验),(~:0∑μP N X H ,1:H X 不服从(,)p N μ∑.由上面的结论1可知在0H 成立时,)(~)()(21p X X χμμ-∑'--,所以将X 到总体中心μ的马氏距离2(,)D X μ=1()()X X μμ-'-∑-记为2D ,则有)(~22p Dχ.以下构造的检验方法是检验量2D 是否有)(~22P D χ成立.先由样品()a X 计算2(1,,)a D a n =,并对2a D 排序:222(1)(2)()...n D D D ≤≤;取统计量2D 的经验分布函数为2()0.5()n t t t F D p n-==,记2()(|)t H D p 表示2()p χ的分布函数在2()t D 的值,则在0H 下有2()(|)t t p H D p ≈;由经验分布得到样本的t p 分位数21()()t n t D F p -=,同时设2χ分布的tp 分位数为2t χ,若假设0H 成立,应有:22()t t D χ≈.然后绘制点22()(,)t t D χ的散点图,这些点应散布在一条过原点且斜率为1的直线上,如果存在明显的偏离,则可以拒绝原假设.这种检验法其实就是2χ分布的Q-Q 图检验法.如果不利用分位数,直接用概率散点2()(,(|))t t p H D p 绘图,就是2χ分布的P-P 图检验法.2.2 2χ统计量的Q-Q 图检验法一般步骤为了方便应用,将上述思路的具体实施步骤归纳如下:(1)由n 个p 维样品()()1,,a X a n =计算样本均值X 和样本协方差阵S :()()()()11'1na aa S X XX X n ==---∑; (2.2.1)(2)计算样品点()t X (1,2,,t n =)到X 的马氏距离:()()()()()21'1,,t t t D X X S X X t n -=--= ;(3)对马氏距离2t D 按从小到大的次序排序:()()()22212n D D D ≤≤≤;(4)计算()0.51,2,,t t p t n n-==以及2t χ,其中2t χ满足:()2t t H p p χ=(或计算()()2t H D p 的值);(5)以马氏距离为横坐标,2χ分位数为纵坐标作平面坐标系,用n 个点()()22,t t D χ绘制散布图,即得到2χ分布的Q-Q 图;或者用另n 个点()()()2,t t p H D p 绘制散布图,即得2χ分布的P-P 图;(6)考察这n 个点是否散布在一条通过原点,斜率为1的直线上,若是,接受数据来自p 元正态总体的假设;否则拒绝正态性假设.3 主成分检验法3.1 主成分检验法的基本原理目前,关于主成分的研究很多,但大多数集中在进行综合评价及回归分析,用来做检验的则几乎没有.主成分检验法是建立在主成分变量基础上的统计方法,基本思想是降维:将多元数据集转化为多个一元互相独立的数据集,通过检验一元数据集的正态性来判断原多元数据集的正态性.为充分解释这一思想,先引入主成分的定义.定义 3.1.1设X =12(,,,)'p X X X 是p 维随机向量,均值()E X μ=,协方差阵()D X =∑,称i i Z a X '=为X 的第i 主成分(1,2..i p =),如果:(1)1(1,2.,)i i a a i p '==;(2)当1i >时,0(1,2.,1)i j a a j i '∑==-; (3)1,0(1,2.,1)()max()i j i a a j i Var Z Var X ααα''=∑==-'=.若已知∑的特征值为 120p λλλ≥≥≥>,12,,,p a a a 为相应的单位正交特征向量,则X 的第i 主成分i i Z a X '=(1,2..i p =)具体的证明过程参见文献[1].如果可以证明:1Z ,…,p Z 是相互独立的,这时p 元数据的正态性检验可化为P 个相互独立的主成分的一元数据的正态性检验,这种检验方法称为主成分检验法.下面说明主成分的不相关性.设()D X =∑,如果∑是对角矩阵,即p 维向量的分量互不相关,这时可以直接把p 元正态性检验问题转化为p 个一元正态性检验问题.但一般∑不是对角矩阵,即分量间是相关的,利用主成分分析法,求得X 的p 个主成分1Z ,…,p Z .下证1Z ,…,p Z 是不相关的.令12(,,,)p Z Z Z Z =,由于1Z ,…,p Z 依次为X 的第i 主成分的充要条件是12()(,,,)p D Z diag λλλ=.即有(,)i j ii j Cov z z i jλ≠⎧=⎨=⎩,又1λ≥2λ≥……≥p λ>0 ,即说明任意两个不相同的主成分之间是不相关的,故12,,,p Z Z Z 不相关.文献[2]中给出了主成分数据处理的基本方法,并分析了方法的不足,提出了改进的方法.直接将标准化的数据代入*Tp n p n Z A X ⨯⨯=,则得到主成分得分.其中,系数矩阵p n A ⨯为对应特征向量组成的矩阵,*T p n X ⨯为标准化的数据集.从中我们看到,计算主成分得分实际上是将标准化后的原始数据投影到旋转后的坐标中. 结论3.1.1 若~(,)X N μ∑,则~(,)Z N A A A μ'∑;反之,若Z 服从多元正态分布,则X 也服从多元正态分布.证明:由主成分的定义知,Z A X '=,其中,12(,,,)p A a a a =且为正交矩阵.由于~(,)X N μ∑,则()()()E Z E AX AE X A μ===, ()()()D Z D A X A D X A A A '''===∑,从而,由多元正态分布的线性性质,~(,)Z N A A A μ'∑,反过来,由Z 服从正态分布,同理可知X 服从正态分布.结论3.1.2 若12,,,p Z Z Z 独立同正态分布,则Z 服从多元正态分布. 证明:此命题的结论可以直接从多元正态分布的定义得出.由主成分的理论特征知,主成分变量是新的互不相关的变量,因此,只要说明主成分变量12,,,p Z Z Z 分别服从一元正态分布,就可以说明Z 服从多元正态分布,从而由结论3.1.1知X 也服从多元正态分布. 3.2 主成分正态检验的一般步骤具体检验步骤如下:(1)由n 个p 维样品()()1,,a X a n =计算样本均值X 和样本协方差阵S ,计算公式同(2.2.1)式;(2)利用坐标变换计算每个样本点的主成分得分,得到新的主成分得分集12,,,p Z Z Z ;(3)对每个i Z (1,2,,i p =),求出其对应的偏度和峰度值;(4)考察偏度是否趋近0,峰度是否趋近3.若是,则接受X 来自于正态总体;若两个条件有一个不满足,则拒绝正态性假设.4 应用研究为了说明这两种方法具有很好的实用价值,并进行比较,本文给出两个实例研究.4.1 实例1对20 名健康成年女性的出汗(X1 ) ,钠的含量(X2) 和钾的含量(X3) 的数据进行正态性检验.本例数据与文献[4]中第45页例1的数据一样,文献[4]中是对样本数据进行均值向量的假设检验,检验方法是基于样本数据来自于3元正态分布的假设,但文献[4]并没有对样本数据进行正态性检验,现本文分别用2χ统计量的Q-Q图检验法和主成分检验法进行多元正态性检验.(1) 2χ统计量的Q-Q图检验法根据2.2节给出的一般步骤,结合数据集,首先利用SAS中主成分程序(程序同见附录3)计算出协方差阵S:X1 X2 X3X1 1.0000 0.4173 -.5597X2 0.4173 1.0000 -.2095X3 -.5597 -.2095 1.0000表4-1 协方差阵然后利用Matlab编程计算马氏距离(程序见附录1),并按升序排列;同时利用SAS软件计算出对应的2χ分位数(程序见附录2),结果见下表:序号马氏距离p分位数序号马氏距离p分位数1 0.003 0.2158 11 0.1096 2.50162 0.0061 0.472 12 0.123 2.79093 0.0064 0.6924 13 0.1446 3.10984 0.0179 0.9018 14 0.2238 3.46755 0.0296 1.1086 15 0.2241 3.87756 0.0355 1.3174 16 0.3571 4.36137 0.061 1.5316 17 0.455 4.95668 0.0885 1.754 18 0.4902 5.73949 0.0887 1.9875 19 0.8439 6.904610 0.0915 2.2354 20 1.1447 9.3484表4-2 马氏距离和p分位数最后以马氏距离为横坐标,以卡方分位数为纵坐标作散点图,见图4-1:χ统计量的Q-Q图图4-1 2从图中可以看出,这些点基本在一条直线的上下波动,偏离不是很大.因此,从直观上判断可以接受原多元数据集来自于多元正态分布的假设.(2) 主成分检验法obs Z1 Z2 Z3 obs Z1 Z2 Z31 -2.35056 -1.60948 -0.63809 11 -0.62827 0.3278 0.167342 1.28027 -1.57151 0.68293 12 -1.40979 0.37468 0.697083 0.29161 -1.15274 -0.44169 13 -0.54558 0.43448 -0.125834 -0.99597 -0.99533 -0.16326 14 1.68529 0.48243 -0.56935 5 0.24255 -0.76054 -0.42432 15 -0.1638 0.59492 -0.986336 0.34761 -0.48032 0.3077 16 0.68709 0.59525 0.94349 7 2.73671 -0.45672 0.58714 17 0.18684 0.85608 0.55041 8 1.30752 -0.44759 0.41891 18 1.38678 0.98895 -1.18331 9 -0.05272 0.03561 -0.68763 19 -0.90402 1.14607 -0.18851 10-2.800040.157190.6998620-0.301541.480770.35344表4-3 主成分得分集然后对主成分得分集进行分析,用SAS 中的UNIVARIATE 命令和SAS 中的分析家中的Q-Q 图分别对Z1、Z2、Z3做正态性检验.我们先看偏峰检验的结果表4-4:变量 偏度 峰度 均值 标准差 方差 Z1 -0.1509976 0.77631092 0.123713 1.259021 1.58513 Z2 -0.3508053 -0.6267268 0.084709 0.83305 0.69397 Z3-0.421413-0.89060520.0335830.623830.38916表4-4 偏峰度检验结果从表4-4中可以看出偏度是在0附近波动,但是峰度的波动很大,绝对值在0.7附近,结合2.2节中的结论可知,可以拒绝原数据集是来自3元正态分布的假设.我们再看图方法检验的结果,见图4-2:图4-2 QQ 图(依次为1Z 、2Z 、3Z )从图中左上角给出的拟合方差以及均值可以看出,直线的拟合度非常好,由此可以判断1Z 、2Z 、3Z 都服从一元正态分布,从而可以接受原数据集来自于3元正态分布的假设.从上面的分析我们看到一元正态检验的2 检验法和Q-Q 检验法得到了两种截然相反的结果,那哪个结果更可信呢?出现这样的情况也是正常的,最重要的原因是中心矩的结果很容易受到频数分布的影响.不同的分布可能计算出同样的中心矩,这样就造成检验误差增大.4.2 实例2本例选取我国2006年各地区城市设施水平数据作正态性检验,包含6个指标,1X :城市用水普及率;2X :城市燃气普及率;3X :每万人拥有公共交通车辆;4X :人均城市道路面积;5X :人均公园绿地面积;6X :每万人拥有公共厕所.用1~31依次表示北京、天津、河北、山西、内蒙古、辽宁、吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南,湖北,湖南,广东,广西,海南,重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆全国31个省、直辖市、自治区的名称.(1) 2χ统计量的Q-Q图检验法参照3.1.1中的步骤说明,可以得出相关的结果如下:X1 X2 X3 X4 X5 X6 X1 1 0.8212 0.3768 -0.1479 0.1356 -0.1812 X2 0.8212 1 0.5332 0.075 0.2839 -0.0797 X3 0.3768 0.5332 1 0.0923 0.2322 0.2216 X4 -0.1479 0.075 0.0923 1 0.5665 0.0193 X5 0.1356 0.2839 0.2322 0.5665 1 0.0371 X6 -0.1812 -0.0797 0.2216 0.0193 0.0371 1表4-5 相关阵obs 卡方分位数马氏距离obs 卡方分位数马氏距离1 1.043733 0.0421 17 5.614729 0.19162 1.613527 0.0569 18 5.891093 0.23813 2.003244 0.0579 19 6.181212 0.25574 2.328934 0.0659 20 6.48602 0.27525 2.62003 0.0713 21 6.810794 0.35716 2.889358 0.0725 22 7.157803 0.38767 3.146093 0.0767 23 7.534835 0.52228 3.393355 0.0774 24 7.948509 0.65179 3.635972 0.0783 25 8.408144 0.76210 3.875649 0.0849 26 8.932674 0.774411 4.113647 0.0889 27 9.544323 0.78612 4.353161 0.0919 28 10.29153 1.525313 4.59426 0.0939 29 11.26231 1.701614 4.83994 0.0943 30 12.68048 1.82515 5.09018 0.1127 31 15.59516 2.039316 5.348121 0.1665表4-6 马氏距离和2χ分位数最终得到2χ统计量的Q-Q图如下:图4-32χ统计量的Q-Q图从图4-3中可以看出,大部分数据呈抛物线分布,因此,拒绝原数据集来自于6元正态分布的假设.(2) 主成分检验法从表4-7中可以看出,1Z比较符合正态分布的特征,但从后面的方差以及标准差(根据Q-Q图拟合直线与点之间的关系得到的,方差和标准差越小说明Q-Q 图越接近于一条直线,也就说明该变量越服从正态分布)来看36X X拟合度比较好.无论怎样,从偏峰度和Q-Q图都可得出,原多元数据集不服从正态性检验.这个结果说明我国各省、直辖市、自治区在上面描述的六个指标中不存在都强或都弱的情况,都是此强彼弱,这很好的映证了目前我国各省、直辖市、自治区实际情况.5 两种方法的比较从上面的原理介绍和应用分析可以看出,多元数据正态性检验的2χ统计量的Q-Q图检验法和主成分检验法存在各自的优缺点.相对来说,主成分正态性检验法涉及到主成分的计算,较为麻烦,但容易在软件上实现,具有较强的实用性和应用价值.这也可以从主成分也能对一元变量进行检验可以看出来,但是需要注意的是一元检验的是新的主成分变量,并不是原始数据集的某一指标的一元检验.2χ统计量的Q-Q图检验法具有结论简单明了的直观效果,但是它没有现成的命令可以套用,对于专业知识不够的人是难以得出结果的.从理论上讲,主成分检验法是优于2χ统计量的Q-Q图检验法,这是因为相对来说一元数据的正态性检验理论已经相当成熟,在得出主成分变量后,就可以直接用相应的软件命令来实现,简单,但分析起来就相对麻烦些.结束语本文只是比较了多元数据正态性检验的两种常用方法的异同,对于其他分布的检验问题,由主成分的较好的特征,是否可以将主成分检验法推广到其他类型分布的检验上呢?本文受能力和时间限制没有研究.另外,主成分提出至今,通过大量的实践验证,发展形成了比较系统的体系.目前比较常见的有核主成分见文献[5]、灰(也称模糊)主成分见文献[6]、伪主成分见文献[7]、非线性主成分见文献[8]等分析方法,这些方法的提出弥补了主成分一般方法的不足.对于这些改进方法见文献[9],是否也可将之应用到本文中的主成分检验法中,使主成分检验法的结论更为准确,也没有研究.本文的创新之处在于通过了两个实例来衡量两种检验方法的优劣,这样做的好处是避免了以偏概全,而且很好的利用软件将2χ统计量的Q-Q图检验法的结果得出来了,并总结了两种检验方法的长处和短处.美中不足的是对于2χ统计量的Q-Q图检验法没有编写出一个完整的程序直接得出Q-Q图.限于作者的学术水平,文中难免有错误和不足,欢迎批评指正.致谢本论文选题及写作都是在徐伟老师的亲切关怀和细心指导下完成的.他的严肃的科学态度,严谨的治学精神,精益求精的工作作风,深深地感染和激励着我,使我不仅接受了全新的思想观念,树立了宏伟的学术目标,领会了基本的思考方式,掌握了通用的研究方法,而且还明白了许多为人处事的道理,在此,我对徐老师表示深深的感谢.与此同时,我还要感谢教过我的所有的老师,没有他们谆谆的教导就不会有我今天论文的完成,谢谢了老师,您们辛苦了.参考文献[1]高惠璇. 应用多元统计分析[M].北京:北京大学出版社,2005[2]A.H.Al-Ibrahim, Noriah M.Al-Kandari. Stability of principal components[J],Computational Statistics 23(8),2008.9[3]贾明辉,华志强.主成分分析数据处理方法探讨[J].内蒙古民族大学学报自然科学版,23(4),2008.7[4]Fabian Sinz, Sebastian Gerwinn, Matthias Bethge. Characterization of the p-generalized normal distribution。

厦门大学《应用多元统计分析》习题第03章 多元正态分布均值向量和协差阵的检验

厦门大学《应用多元统计分析》习题第03章 多元正态分布均值向量和协差阵的检验

3
2
50.5
2.25
53
2.25
3
51
2.5
51.5
2.5
4
56.5
3.5
51
3
5
52
3
51
3
6
76
9.5
77
7.5
7
80
9
77
10
8
74
9.5
77
9.5
9
80
9
74
9
10
76
8
73
7.5
11
96
13.5
91
12
12
97
14
91
13
13
99
16
94
15
14
92
11
92
12
15
94
15
91
12.5
3.6 1992 年美国总统选举的三位候选人为布什、佩罗特和克林顿。从支
持三位候选人的选民中分别抽取了 20 人,登记他们的年龄段( x1 )、受教育
程度( x2 )和性别( x3 )资料如下表所示:
投票人
x1
x2
x3
投票人
x1
x2
x3
布什
2
1
2
1
1
11
1
1
2
2
1
3
2
12
4
1
2
3
3
3
1
13
4
0
2
4
1
3
2
14
3
4
2
5
3
1

多元统计分析作业

多元统计分析作业

3-6 (均值向量各分量间的结构关系的检验)设总体),0(),(~>∑∑μp N X))(,,1()(p n n X >= αα为来自p 元正态总体X 的样本,记)',,(1p μμμ =.C 为p k ⨯常数)(p k <,r k C rank ,)(=为已知k 维向量.试给出检验r C H =μ:0的检验统计量与分布.解:令),,2,1()()(n CX Y ==μαα则),,1()(n Y =αα为来自k 维正态总体Y 的样本,且)',(~)(C C C N Y k ∑μα;记',C C C y y ∑=∑=μμ.检验:r H r C H y =⇐⇒=μμ::00这是单个k 维正态总体均值向量的检验问题.当'C C C y ∑∑=未知时均值向量的检测取检验统计量:),(~)1(2k n k F T kn kn F ---=其中).()(),(]'[)'()1()(][)'()1()(1)(112X X X XA r X C CAC r X C n n r Y A r Y n n T i ni i y --=---=---=∑=--3-11 表3.4给出15名2周岁婴儿的身高)(1X ,胸围)(2X 和上半臀围)(3X 的测量数据,假设男婴的测量数据)6,,1)(( =ααX 位来自总体),()2(3∑μN 的随机样本.试利用表3.4中的数据检验).05.0(:)2()1(0==αμμH表3.4某地区农村两周岁婴儿的体格测量数据解:这是两总体均值向量的检验问题.检验统计量取为:)9,6,3(===m n p)1,(~)2(102--+-+--+=p m n p F T pm n p m n F H 下其中)()()'()2(1212Y X A A Y X mn nmm n T -+-+-+=- 故检验统计量为))(()'(121Y X A A Y X mn nmp p m n F -+-+⨯--+=用观测数据代入计算可得:.4982.1,3117.52==F T显著性概率值 α=>=05.02693.0p故)05.0(:)2()1(0==αμμH 相容.4-3 设Y 与321,,x x x 有相关关系,其8组观测数据见表4.5.表4.5 观测数据(1)设εββββ++++=3322110x x x Y ,试求回归方程及决定系数2R 和均方误差2s ; (2)考虑二次回归模型:.3293182362252143322110εβββββββββ+++++++++=x x x x x x x x x x Y用逐步回归法筛选变量)05.0(==out in αα,并写出决定系数2R 和均方误差s .解:回归结果如下 Call:lm(formula 321~x x x y ++=)Residuals:1 2 3 4 5 6 7 81.4358 -0.4862 -2.2616 1.3942 1.0674 -2.6678 -0.8347 2.3528Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -106.7267 13.5136 -7.898 0.001390 **1x 3.2518 0.4486 7.248 0.001923 ** 2x 1.3313 0.1491 8.927 0.000871 *** 3x -0.6746 0.3910 -1.725 0.159579---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 2.442 on 4 degrees of freedom Multiple R-squared: 0.9909, Adjusted R-squared: 0.9841 F-statistic: 145.4 on 3 and 4 DF, p-value: 0.0001543由回归分析结果可以看出回归方程为106.73 3.251 1.3320.673y x x x =-++-对应的回归系数为 99.02=R 均方误差计算得22.98s =5-1 已知总体)1(=m G i 的分布为)2,1)(,(2)(=i N i i σμ,按距离判别准则为(不防设21)2()1(,σσμμ<>)⎪⎩⎪⎨⎧≥≤∈<<∈.,,,,**2**1μμμμx x G x x G x 若若其中21)1(2)2(1*σσμσμσμ++=试求错判概率)1|2(P 和)2|1(P解:}{}{)},(~|{)},(~|{)1|2(111)1(11*1)1(21)1(21)1(***σμμσμσμμσμσμμσμμ-≥-+-≤-=≥+≤=X P X P N X X P N X X P P记.,12)1()2(1)1(12)2(1)1(21)1(21)1()2(1)1(21)1(2)2(11)1(**σσμμσμσσμσμσσμμσσμμσμσσμσμσσμμ--=⎥⎦⎤⎢⎣⎡--+=-=+-=⎥⎦⎤⎢⎣⎡-++=-=a b{}{})()()},(~|{)2|1(21)2()1(12)2()1(2)2(2)2(2)2(*2)2(22)2(***a b b U P a U P X P X P N X X P P Φ-Φ=⎪⎪⎭⎫⎝⎛+-Φ-⎪⎪⎭⎫ ⎝⎛--Φ=-≤--<=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧-≤--⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧-<-=<<=∴σσμμσσμμσμμσμσμμσμσμμμ)1,0(~(}{}{)1|2(N U a U P b U P P -≥+≤=)()(a b Φ+Φ=5-2 设三个总体321,G G G 和的分布分别为:)5.0,2(2N ,)1,3()2,0(22N N 和.试问样品5.2=x 应判归哪一类?(1)按距离判别准则;(2)按贝叶斯判别准则.,0,1)|(,31321⎪⎪⎭⎫ ⎝⎛⎩⎨⎧=≠====j i j i i j L q q q 取解: (1)按距离判别准则,当样品5.2=x 时,.25.01)35.2()(,5625.12)05.2()(,15.0)25.2()(222322222221=-==-==-=x d x d x d因为5625.1125.0<<,所以样品5.2=x 判归给3G .(2)按后验概率判别法(贝叶斯判别准则)计算样品x 属t G 的后验概率:)3,2,1()()()|(31==∑=t x f q x f q x t P i i i t t当样品5.2=x 时,经计算可得.3798.01172.00304.01613.01174.0)5.2|1(,0984.01172.00304.01613.00304.0)5.2|2(,5218.01172.00304.01613.01613.0)5.2|1(=++===++===++==x p x p x p因0984.03798.05218.0>>,所以样品判归给1G .8-2 已知题8-1中R 的特征值和特征向量分别为)'.1772.0,6379.0,7494.0(,3672.0,)'8432.0,4911.0,2186.0(,6795.0,)'5075.0,5932.0,6250.0(,9633.1332211--==--====l l l λλλ(1)取公共因子个数1=m 时,求因子模型的主成分解,并计算误差平方和)1(Q ; (2)取公共因子个数2=m 时,求因子模型的主成分解,并计算误差平方和)2(Q ; (3)试求误差平方和1.0)(<m Q 的主成分解.解:(1)1=m 的因子模型的主成分解为:.4943.00003091.00002331.0,7111.08312.08757.0)(11⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎭⎫ ⎝⎛==D l A λ⎪⎪⎪⎭⎫ ⎝⎛---=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫ ⎝⎛=+-=02411.001727.00979.0015911.016227.07279.01135.0145.063.01)'(1D AA R E 故1951.0)2411.01727.00979.0(2)1(22231312=++⨯==∑∑==i j ijQ ε(2)2=m 的因子模型的主成分解为:.01131.00001452.00002007.0,6950.07111.04048.08312.01802.08757.0)(2211⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎭⎫ ⎝⎛--==D l l A λλ,⎪⎩⎪⎨⎧+-=+-=+-=3213221212116950.07111.04048.08312.01802.08757.0εεεF F X F F X F F X⎪⎪⎪⎭⎫ ⎝⎛---=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫ ⎝⎛=+-=00403.000475.01708.0013097.014975.08008.01135.0145.063.01)'(1D AA R E06611.0)0403.00475.01708.0(2)2(22231312=++⨯==∑∑==i j ijQ ε(3)因1.006611.0)2(<=Q ,故1=m 的主成分解满足要求.。

厦门大学《应用多元统计分析》习题第03章 多元正态分布均值向量和协差阵的检验

厦门大学《应用多元统计分析》习题第03章 多元正态分布均值向量和协差阵的检验

1
2
5
3
1
2
15
2
1
1
6
2
4
1
16
3
1
1
7
1
1
1
17
1
1
2
8
1
3
2
18
3
1
1
9
4
1
2
19
4
3
1
10
3
3
2
20
2
1
1
克林顿
1
4
1
1
11
3
1
2
2
4
1
2
12
2
3
1
3
2
1
2
13
4
0
1
பைடு நூலகம்
4
4
1
2
14
2
1
2
5
2
3
2
15
4
1
1
6
4
0
2
16
2
2
1
7
3
2
1
17
3
3
1
8
4
0
1
18
3
2
2
9
2
1
1
19
3
1
1
10
3
1
2
20
4
0
3 LF HF 4.77 3.57 4.58 3.04 5.37 4.79 4.65 2.86 4.68 3.97 4.61 4.40 5.27 3.88 5.55 5.00
1 LF HF 3.71 1.76 3.63 3.17 4.49 4.08 5.70 4.78 4.96 3.39 5.83 4.02 5.22 5.08 4.15 2.39

多元统计分析考试真题

多元统计分析考试真题

多元统计分析考试真题………… 评卷密封线 ……………… 密封线内不要答题,密封线外不准填写………………200 8 ~200 9 学年第⼆学期多元统计分析课程64学时, 4 学分,闭卷,总分100分,占总评成绩 70 %2009年7⽉ 3⽇上午,考试时间110分钟⼀、简答题(共20分)1、什么是判别分析?Fisher 判别法的基本思想是什么?(8分)2、什么是因⼦分析?其基本思想是什么?为使公共因⼦对变量分组的实际意义更清晰,因⼦载荷阵A= ()m pij a ?应具有什么特征(12分)=-⼆、填空题(共24分,每空2分) 1、P 维随机向量X = 1(,...,)T p X X ~N P (µ,∑),则1....p XX 相互独⽴的充要条件为∑是_____( 对⾓矩阵 ),设A 是s ?p 阶常数阵,d 为维常数向量,则AX+d ~ ___________( N p (A µ+d,A∑A T )2、在⼀元统计中,若统计量t ~ t (n-1) 分布,则2t ~ ___________ ( F(1,n) )分布,在多元统计分析中2T 统计量也有类似的性质。

若X~ N P (0,∑), 样本离差阵S~ W P (n,∑), 且X 与S相互独⽴,令2T = n TX 1S -X, 则1n p np-+2T ~ ___________。

3、随机向量 X= 1(,...,)Tp X X 的R 型因⼦分析模型为:11...i i im m i a F a F εX =+++ (i=1,...,p )则j F 为(j=1,…,m )i X 的_____ 因⼦,i ε为i X 的_____ 因⼦。

1,...,m F F 的关系为___________ Cov(j F ,i ε)=_____ (j= 1,…,m)4、若随机矩阵i A 服从Wishart 分布W P ( i n ,∑),(i=1,2)且 1A 和2A 相互独⽴,则统计量112A Λ=A +A 服从_____ 分布。

多元正态分布的检验_2023年学习资料

多元正态分布的检验_2023年学习资料

4的p个线性组合a山,山,,d,u的1001-a%-T2联合置信区间为:-以-无gs+-n-i=1,2,… p-x元og咖e+元g-ae1。
4的p个分量4,42,4。的1001-a%-T2联合置信区间为:-i=1,2,…,p-其中,X是均值向量X 第个分量,-S是协方差矩阵S第个对角线上的元素。
x-可-Sw-当|t>t.n1+n2-2时,拒绝-10-英巾,之可立为-n1i-1-,i=1-42-20以 列-a+a-+a
或检验统计量:--,--收到列-当F>F.1,n1+n2-2时,拒绝H。
两个多元正态总体均值成组比较-设X1,X2,…,Xn和Y,Y2,…,Yn,分别取-自于p维正态总体N,1, 和N,42,∑-的随机样本,且两样本相互独立,-检验假设:-H0:41=42,H1:41≠42-∑未知
联合置信区间与单一置信区间的L比较-4,的单一置信区间:-外-4,的T2联合置信区间为:-4:的Bonfe roni联合置信区间为:
§2.2两个正态总体均值-的成组比较
一元情形的回顾-设x,2,…,x和,2,…,ym分别取自J-正态总体N4,σ 2和N42,σ 2的随机样本,两样本相互独立,检验假设:-H041=42,H1:41≠4o2未知
§2.1单个正态总体均值的检-验及置信区间
一元正态总体均值检验的回顾-1σ 2已知时-设x1,心2,…,xn为取自于正态总体V4,o2-的随机样本,检 假设-Ho:=4,H1:L≠40-02已知-检验统计量:U=-x-0-给定显著性水平a,当|U>u.时,绝原假设H·
202未知时-设x1,心2,,xn为取自于正态总体V4,o2-的随机样本,检验假设-H0:L=0,-H1: ≠4σ 2未知-检验统计量:t=-文一4。-sin-给定显著性水平a,当|t>tsn-1时,-拒绝原假设H。

检验多元正态总体协方差阵是否相等步骤1

检验多元正态总体协方差阵是否相等步骤1

检验多元正态总体协方差阵是否相等步骤
(类似于一元统计中的等方差检验)
1.打开“卫星数据.mtw”
2.统计>控制图>多变量控制图>广义方差:
在变量框中输入“x1-x4”,子组大小输入“分类”,单击“广义方差选项”,选择“存储”标签,在“存储每个点的这些值”区域选中“绘制的点”和“子组大小”。

3.打开“比较协差阵.mtw”
4.把“卫星数据”工作表中绘制的点和子组大小2列数据复制到“比较协差阵”的C1-C2列,在C3列输入“4”(四个通道对应4个x,4维正态总体)
5.打开“卫星数据”数据表,执行“统计>多变量>判别分析”,组填入“分类”,预测变量填“x1-x4”:
单击“选项”按钮,选择倒数第二个单选按钮。

6.在会话窗口中找到“合并协方差矩阵”部分内容,
粘贴到“比较协差阵”文件的空白处,补充完整协方差阵。

7.将合并协方差阵命名为M1
8.编辑>命令行编辑器,输入“%comps”,单击“执行命令”。

9.看数据表中的P值,如果P<0.05(一般可以放宽到0.01),说明5个总体协方差阵不全相等(5个总体的协方差阵有显著差别)。

此题目结果为P=0.0000009,说明5个总体协方差阵不全相等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元统计正态性检验作业3.13 (1)对每个分量检验是否是一元正态分布 1.一维边缘分布的正态性检验 Q-Q 图检验法>data1=data.frame(x1=c(260,200,240,170,270,205,190,200,250,200,225,210,170,270,190,280,310,270,250,260),x2=c(75,72,87,65,110,130,69,46,117,107,130,125,64,76,60,81,119,57,67,135),x3=c(40,34,45,39,39,34,27,45,21,28,36,26,31,33,34,20,25,31,31,39), x4=c(18,17,18,17,24,23,15,15,20,20,11,17,14,13,16,18,15,8,14,29)) >data2=data.frame(x1=c(310,310,190,225,170,210,280,210,280,200,200,280,190,295,270,280,240,280,370,280),x2=c(122,60,40,65,65,82,67,38,65,76,76,94,60,55,125,120,62,69,70,40),x3=c(30,35,27,34,37,31,37,36,30,40,39,26,33,30,24,32,32,29,30,37), + x4=c(21,18,15,16,16,17,18,17,23,17,20,11,17,16,21,18,20,20,20,17)) >data3=data.frame(x1=c(320,260,360,295,270,380,240,260,260,295,240,310,330,345,250,260,225,345,360,250),x2=c(64,59,88,100,65,114,55,55,110,73,114,103,112,127,62,59,100,120,107,117),x3=c(39,37,28,36,32,36,42,34,29,33,38,32,21,24,22,21,34,36,25,36),x4=c(17,11,26,12,21,21,10,20,20,21,18,18,11,20,16,19,30,18,23,16)) > data=rbind(data1,data2,data3)> qqnorm(data[,1]);qqline(data1[,1])> qqnorm(data[,2]);qqline(data1[,2])-2-1012200250300350Normal Q-Q PlotTheoretical QuantilesS a m p l e Q u a n t i l e s> qqnorm(data[,3]);qqline(data1[,3])> qqnorm(data[,4]);qqline(data1[,4])-2-1012406080100120Normal Q-Q PlotTheoretical QuantilesS a m p l e Q u a n t i l e s-2-1012202530354045Normal Q-Q PlotTheoretical QuantilesS a m p l e Q u a n t i l es-2-10121015202530Normal Q-Q PlotTh eoretical Qu an tilesS a m p le Q u a n ti le s2.二元数据的正态性检验1.等椭圆检验法以检验(X1,X2)是否服从二元正态分布为例> datax1x2=as.matrix(cbind(data[,1],data[,2]))> mean1=apply(datax1x2,2,mean);mean1[1] 259.08333 84.11667> s1=cov(datax1x2);s1[,1] [,2][1,] 2787.7048 433.6681[2,] 433.6681 753.9692> D2=c()> for(i in 1:n){+ D2[i]=(datax1x2[i,]-mean1)%*%solve(s1)%*%t(t(datax1x2[i,]-mean1)) + cat(D2[i])}> D2[1] 0.1251861 1.2646933 0.1805204 2.8870075 0.8947723 5.3436674 1.7397987 2.4709765 1.7429712 2.7508022 4.2330751 4.2933030 2.9037836 [14] 0.1830727 1.9723611 0.2160584 1.9889309 1.2522066 0.3888125 3.7506293 2.2376907 2.4250881 3.3340246 0.6947016 2.8870075 0.9085821 [27] 0.7613934 3.0212101 0.8859113 1.2539095 1.2539095 0.2209607 1.9723611 2.2170959 2.2793965 1.7078104 0.6647098 0.6485288 5.8467138 [40] 3.4256245 2.6068141 0.9296899 3.8566119 0.6171641 0.6738596 5.4233607 1.1265728 1.2473480 0.9654576 0.8691904 1.7027351 1.1050343 [53] 2.2176911 3.9171163 0.6539759 0.9296899 1.0704952 3.3865331 3.7284302 1.7429712> po=0.5> p=dim(data)[2];p[1] 4> d0=qchisq(p0,p);d0[1] 3.356694> a=sum(D2<d0);a[1] 49> pi=a/n;pi[1] 0.8166667 #p0取0.5时,马氏距离小于d0的个数为49,占总样品比例约为0.82,拒绝来自二元正态分布的假设> p0=0.25> d0=qchisq(p0,p);d0[1] 1.922558> a=sum(D2<d0);a[1] 33> pi=a/n> pi[1] 0.55 #p0取0.5时,马氏距离小于d0的个数为33,占总样品比例约为0.55,拒绝来自二元正态分布的假设2.二元数据的2χ图检验法> pt=c()> for(t in 1:n){+ pt[t]=(t-0.5)/n+ cat(pt[t])}> pt #pt[1] 0.008333333 0.025000000 0.041666667 0.058333333 0.075000000 0.091666667 0.108333333 0.125000000 0.141666667 0.158333333 0.175000000 [12] 0.191666667 0.208333333 0.225000000 0.241666667 0.258333333 0.275000000 0.291666667 0.308333333 0.325000000 0.341666667 0.358333333 [23] 0.375000000 0.391666667 0.408333333 0.425000000 0.441666667 0.458333333 0.475000000 0.491666667 0.508333333 0.525000000 0.541666667 [34] 0.558333333 0.575000000 0.591666667 0.608333333 0.625000000 0.641666667 0.658333333 0.675000000 0.691666667 0.708333333 0.725000000 [45] 0.741666667 0.758333333 0.775000000 0.791666667 0.808333333 0.825000000 0.841666667 0.858333333 0.875000000 0.891666667 0.908333333 [56] 0.925000000 0.941666667 0.958333333 0.975000000 0.991666667D> D2t=sort(D2) #2()t> xt2=c()> for(t in 1:n){+ xt2[t]=qchisq(pt[t],p)+ cat(xt2[t])+ }χ> xt2 #2t[1] 0.2700151 0.4844186 0.6415772 0.7757695 0.8969359 1.0096230 1.1163677 1.2187621 1.3178880 1.4145247 1.5092595 1.6025523[13] 1.6947743 1.7862337 1.8771930 1.9678806 2.0584996 2.1492342 2.2402545 2.3317204 2.4237845 2.5165951 2.6102978 2.7050379[25] 2.8009620 2.8982198 2.9969656 3.0973602 3.1995725 3.3037815 3.4101784 3.5189686 3.6303748 3.7446397 3.8620297 3.9828389[37] 4.1073944 4.2360619 4.3692534 4.5074361 4.65114344.8009895 4.95768735.1220712 5.2951282 5.4780385 5.67223005.8794549[49] 6.1018972 6.3423292 6.6043460 6.8927308 7.2140471 7.5776562 7.9975859 8.4962822 9.1131220 9.9275079 11.1432868 13.6954281> plot(D2t,pt)(2)2 图检验对三组观测数据分别检验是否来自4元正态分布对(1)组:> s1=cov(data1) > n1=dim(data1)[1]> mean1=apply(data1,2,mean) > data10=as.matrix(data1) > D2=c()> for(i in 1:n1){+ D2[i]=(data10[i,]-mean1)%*%solve(s1)%*%t(t(data10[i,]-mean1)) + cat(D2[i])}2.3566150.87569193.3047952.8114523.7483283.4172392.5699034.3461183.5919072.10211511.080623.6419633.0200982.0029151.7946376.334355.2382985.1832451.2706137.3091 > D2t=sort(D2) #2()t D > pt=c()> for(t in 1:n1){ + pt[t]=(t-0.5)/n1 + cat(pt[t])} #t p0.0250.0750.1250.1750.2250.2750.3250.3750.4250.4750.5250.5750.6250.6750.7250.7750.8250.8750.9250.975 > plot(D2t,pt)1234560.00.20.40.60.81.D2tp t对(2)组:> s2=cov(data2) > n2=dim(data2)[1]> mean2=apply(data2,2,mean) > data20=as.matrix(data2) > D2=c()> for(i in 1:n1){+ D2[i]=(data20[i,]-mean2)%*%solve(s2)%*%t(t(data20[i,]-mean2)) + cat(D2[i])}4.509632.6431977.4379630.67967053.0388361.3601842.0558582.1154885.1951254.1883834.02838810.814861.6963652.5080357.2389894.2872361.4593961.713325.6069173.422164> D2t=sort(D2) > pt=c()> for(t in 1:n1){ + pt[t]=(t-0.5)/n2 + cat(pt[t])}0.0250.0750.1250.1750.2250.2750.3250.3750.4250.4750.5250.5750.6250.6750.7250.7750.8250.8750.9250.975> plot(D2t,pt)2468100.00.20.40.60.81.0D2tp t2468100.00.20.40.60.81.D2tp t对(3)组:> s3=cov(data3) > n3=dim(data3)[1]> mean3=apply(data3,2,mean) > data30=as.matrix(data3) > D2=c()> for(i in 1:n1){+ D2[i]=(data30[i,]-mean3)%*%solve(s3)%*%t(t(data30[i,]-mean3)) + cat(D2[i])}3.9726173.3454264.6117212.2829991.4998854.7761745.5899942.3459172.2592941.0760154.2478350.3237727.2743363.3488044.9465015.1954879.4199912.7490492.926543.807644> D2t=sort(D2) > pt=c()> for(t in 1:n1){ + pt[t]=(t-0.5)/n3 + cat(pt[t])}0.0250.0750.1250.1750.2250.2750.3250.3750.4250.4750.5250.5750.6250.6750.7250.7750.8250.8750.9250.975> plot(D2t,pt)24680.00.20.40.60.81.D2tp t。

相关文档
最新文档