应用多元统计分析-北大版-第三章

合集下载

多元统计分析第三章 假设检验与方差分析

多元统计分析第三章 假设检验与方差分析

第3章 多元正态总体的假设检验与方差分析从本章开始,我们开始转入多元统计方法和统计模型的学习。

统计学分析处理的对象是带有随机性的数据。

按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。

由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。

所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。

统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。

统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。

参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。

本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。

3.1一元正态总体情形的回顾一、 假设检验在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。

1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2σμN 的样本,我们要检验假设0100:,:μμμμ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。

备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。

当2σ已知时,用统计量nX z σμ-=在原假设0H 成立下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。

对于检验问题(3.1.1),我们制定这样一个检验规则(简称检验): 当αz z >时,拒绝0H ;当αz z ≤时,接受0H 。

北大应用多元统计分析课件第三章

北大应用多元统计分析课件第三章
聚类分析的分类
02
根据聚类过程中数据点之间的相似性度量方式,聚类分析可以分为基于距离的聚类和基于密度的聚类。
聚类分析的数学基础
03
聚类分析的数学基础主要包括距离度量、相似性度量和概率统计等。
通过聚类分析将市场划分为不同的细分市场,为企业的市场策略提供依据。
市场细分
根据客户的行为和属性特征,将客户划分为不同的群体,便于企业进行个性化营销和服务。
Y = β0 + β1X1 + β2X2 + ... + βpXp + ε,其中Y是因变量,X1, X2, ..., Xp是自变量,β0, β1, β2, ..., βp是模型的参数,ε是误差项。
多元线性回归模型的特点
它不仅可以处理多个自变量对因变量的影响,而且可以处理自变量之间的交互作用和多元共线性问题。此外,通过引入虚拟变量,多元线性回归模型还可以处理分类自变量和有序分类因变量的情况。
北大应用多元统计分析课件第三章
目录
多元线性回归模型主成分分析因子分析聚类分析
多元线性回归模型
多元线性回归模型
在统计学中,多元线性回归模型是一种用于探索和预测多个自变量与因变量之间关系的统计方法。它假设因变量和自变量之间存在一种线性关系,即因变量的变化可以由自变量的线性组合来解释。
多元线性回归模型的一般形式
最小二乘法:最小二乘法是一种常用的参数估计方法,它通过最小化预测值与实际值之间的残差平方和来估计模型的参数。这种方法基于一种假设,即误差项的均值为零,且误差项之间相互独立。
线性关系检验:在多元线性回归模型中,需要检验因变量与自变量之间是否存在线性关系。可以通过绘制散点图和残差图来直观判断是否存在非线性关系。如果存在非线性关系,可以考虑使用其他模型或对自变量进行变换来满足线性关系假设。

应用多元统计分析北大

应用多元统计分析北大
本课程要讨论的多元分析方法,它同时对多 门课程成绩进行分析。这样的分析对这些课程 之间的相互关系、相互依赖性等都能提供有用 的信息。
8
第9页/共86页
第一章 绪 论
§1.1 引言--多元分析的研究 对象和内容
由于大量实际问题都涉及到多个变量,这些 变量又是随机变化,如学生的学习成绩随着被 抽取学生的不同成绩也有变化(我们往往需要 依据它们来推断全年级的学习情况)。所以要 讨论多维随机向量的统计规律性。
两组变量的相关分析
1
第2页/共86页
使用的教材
普通高等教育”十一五”国家级教材
北京大学数学教学系列丛书
本科生 数学基础课教材
应用多元统计分析
(北京大学出版社,高惠璇,2006.10)
2
第3页/共86页
参考书(一)
1. 实用多元统计分析(方开泰,1989,见参考文献[1]) 2. 多元统计分析引论(张尧庭,方开泰, 2003,见[2]) 3. 实用多元统计分析(王学仁,1990 ,见[6]) 4. 应用多元分析(王学民,1999 ,见[8]) 5. 实用统计方法与SAS系统(高惠璇,2001, 见[3]) 6. 多元统计分析(于秀林,1999 ,见[9]) 7. 多元统计方法(周光亚,1988 ,见[28]) 8. 多元分析(英 . M . 肯德 尔,1983 ,见[15]) 9. SAS系统使用手册等资料(1994-1998 ,见[17]-[21])
主成分分析方法为样品排序或多指标系 统评估提供可行的方法.
23
第24页/共86页
教育学--
主成分分析在学生学习成绩排序中的应用
这里把12门课的成绩看成12个变量,这些 变量是相关的,有的相关性强些,有的相关 性一般些。用主成分分析方法从12个相关的 变量中可以综合得出几个互不相关的主成分 --它们是原始变量的线性组合。其中第一 主成分综合原始变量的信息最多(一般在70 %以上),我们就用第一主成分(即单个综 合指标)替代原来的12个变量;然后计算第 一主成分的得分并进行排序。

多元统计分析1-3章剖析

多元统计分析1-3章剖析

第一章绪论§1.1 什么是多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。

例如,要衡量一个地区的经济发展,需要观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。

在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。

总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。

上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。

如何同时对多个随机变量的观测数据进行有效的统计分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。

显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。

而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律,如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科,同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。

在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。

为提高科学性、可靠性,通常需要定性与定量分析相结合。

实践证明,多元分析是实现做定量分析的有效工具。

多元统计分析第三章课件

多元统计分析第三章课件

( X 0 ) t n S
2 n ( X ) 2 1 t2 n ( X ) ( S ) ( X ) 2 S 对于多元变量而言,可以将 t 分布推广为下面将要介绍的 2 Hotelling T 分布。
定义
设 X ~ N p (μ , Σ , ) S ~ Wp ( n, Σ 且 ) X 与S
2 -1
相互独立,n p , 则称统计量 T nX S X 的分布 为非中心 HotellingT2 分布,记为 T 2 ~ T 2 ( p, n, μ) 。 当 μ 0 时,称 T 服从(中心) Hotelling T 分布。
2 2
记为 T 2 ( p, n) 。 由于这一统计量的分布首先由 Harold Hotelling 提出 来的,故称为 Hotelling T 分布,值得指出的是,我 国著名统计学家许宝禄先生在 1938 年用不同方法也
n ai μ ai X T aiSai
n 1

当k很小时,联合T2置信区间 aix T aiSai n ai μ ai X T aiSai
n , i 1, 2,, k
的置信度一般会明显地大于1−α,因而上述区间会显得过宽, 即精确度明显偏低。这时,考虑采用庞弗伦尼(Bonferroni) 联合置信区间(p177):
第三章 多元正态总体的统计推断
§3.1 引言 §3.2 单个总体均值的推断
§3.3 单个总体均值分量间结构关系的检验
§3.4 两个总体均值的比较推断 §3.5 两个总体均值分量间结构关系的检验 §3.6 多个总体均值的比较检验(多元方差分析) §3.7 协方差阵的检验
§3.1 引言
在单一变量的统计分析中,已经给出了正态总体N ( , 2) 的均值和方差2的各种检验。对于多变量

多元统计分析第三章聚类分析

多元统计分析第三章聚类分析

类平均法
类平均法的特点是定义两类之间的距 离平方为这两类元素两两之间距离的 平方的平均。其聚类方法和过程与前 两种方法相同。
离差平方和法
该方法的基本思想来自方差分析。即如 果分类正确,则同类样品的离差平方和 应当较小,而类间的离差平方和应当较 大。具体做法是:先令每个样品各自成 一类,然后每次缩小一类,计算所有可 能合并结果带来的离差平方和S,选择使 S增加最小的两类首先合并,依次类推。
设空间中的两点
P (x 1 ,x 2 , ,x p )',Q (y 1 ,y 2 , ,y p )'
s11,s22, ,spp
表示p个变量n次观测的样本方差,则定义 P到Q 的统计距离为:
d (P ,Q ) (x 1y 1 )2 s 1 1
(x 2y 2 )2 s2 2
(x py p )2 sp p
所有样品之间的样品相关系数矩阵记为:
Cij (2) ,定义为:
r11 r12
r1 p
Cij (2) (rij )
r21 r22
r2 p
rn1 rn2
rnp
Q型聚类 R型聚类
计算公式p :
xi x j
cosij
1 p
p
xi2
x
2 j
1 1 n
x i x j
cosij
1 n
n
j 个指标
1 ,2 , p )为第
i
一、相似系数:
这是大家最熟悉的统计量,它是将数据标准化后的夹
角的余弦。
常用 rij 表示。
p
(xik X i )(x jk X j )
rij
k1 p
p
1
( (xik X i )2 (x jk X j )2 ) 2

应用多元统计分析课后习题答案详解北大高惠璇(第三章部分习题解答).ppt

应用多元统计分析课后习题答案详解北大高惠璇(第三章部分习题解答).ppt

def
2 ln n( X 0 )01( X 0 )

X
H 0下
~
N
p (0,
1 n
0 ),
H 0下
n( X 0 ) ~ N p (0, 0 )
所以由§3“一﹑2.的结论1”可知
2 ln ~ 2 ( p).
20
第三章 多元正态总体参数的检验
3-6 (均值向量各分量间结构关系的检验) 设总体
若r=0时,则A=0,则两个二次型也是独 立的.
以下设0<r<n.因A为n阶对称阵,存在正 交阵Γ,使得
7
第三章 多元正态总体参数的检验
其中λi≠0为A的特征值(i=1,…,r).于是

r
由AB=O可得DrH11=O , DrH12=O . 因Dr为满秩阵,故有H11=Or×r,H12=Or×(n-r) .
由定义314可知15性质5在非退化的线性变换下t分别表示正态总体x的样本均值向量和离差阵则由性质1有1735对单个p维正态总体n均值向量的检验问题试用似然比原理导出检验h已知的似然比统计量及分布
第三章习题解答
第三章 多元正态总体参数的假设检验
3-1 设X~Nn(μ,σ2In), A为对称幂等 阵,且rk(A)=r(r≤n),证明
~
N pr
(0, 22 ),

X
n p
xij
X (1) | X (2) , nr n( pr)

W
X X
X (1)X (1) X (2)X (1)
X X
(1) X (2) X
(2) (2)
WW1211
W12 W22
,

W11 X (1)X (1), W22 X (2)X (2)

[经济学]北大应用多元统计分析课件第三章

[经济学]北大应用多元统计分析课件第三章
应用多元统计分析
第三章 多元正态总体
参数的假设检验(一)
1
北大数学学院
第三章 多元正态总体参数的假设检验
目 录(一)
§3.1 几个重要统计量的分布
一、正态变量二次型的分布 二、威沙特分布 三、霍特林T2分布 四、威尔克斯统计量
§3.2 单总体均值向量的检验及置信域
§3.3 多总体均值向量的检验
2
北大数学学院

Y Y

1
2
X X
~
2 (n, ),其中

1
2

结论3 设X~Nn(0 ,σ2In), A为n阶对称方阵,
rk(A)= r,则二次型 X'AX/σ2~χ2(r)
A2=A(A为对称幂等阵).
特例:当A=In时, X In X / 2 X X / 2 ~ 2 (n)
② 设l′=(l1,…,lp),则
l´Wl=ξ~ W1 (n,l´Σl),
即 ξ~σ2χ2(n) (其中σ2=l´Σl).
在性质3中只须取C=l´,即得此结论.
思考:试问随机阵W的对角元素Wii的分布?
19
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--Wishart分布的性质
布的一些性质.
性质2 关于自由度n具有可加性: 设Wi ~Wp(ni,Σ) (i=1,…,k)相互独立,则
k
Wi ~ Wp (n, ), 其中n n1 nk .
i 1
性质3 设p阶随机阵W~Wp(n,Σ), C是m×p常数
阵,则m阶随机阵CWC′也服从Wishart分布,即 CWC′~Wm(n,CΣC′).
7

第三章 多元回归分析 《应用多元统计分析》 ppt课件

第三章 多元回归分析 《应用多元统计分析》 ppt课件

n
n
ei2
yi b0 b1xi1 b2 xi2
2
bp xip
i 1
i 1
达到最小。解形如下式的正规方程:
yi (b0 b1xi1 b2 xi 2
bp xip )
0
xi1 yi (b0 b1xi1 b2 xi 2
bp xip ) 0
xip yi (b0 b1xi1 b2 xi 2
二、逐步回归分析
每步都要进行显著 性检验,以便保证 每次引入变量前回 归方程中只包括显 著性变量。这个过 不能 程反复进行,直到 既无不显著变量从 回归方程中剔除, 又无显著变量需要 选入回归方程时为 止。
开始
能否引入 不在方程中的变量

引入变量
能否剔除 已在方程中的变量

引入变量
不能
筛选结束
二、逐步回归分析
可以进一步证明最小二乘法估计量 b 服从正态分布,

b ~ Np1[β, 2(XX)1]
此时,最小二乘估计是一切无偏估计中方差最小的估计。
特别地,有 bj N[ j , 2 cjj ] ( j 0,1, , p ),其中,cjj 表
示矩阵 (XX)1 中第 j 行第 j 列的元素。
二、模型检验
通常来说,模型的设定只是基于定性分析作出的 假设。这种假设是否符合实际,能否得到样本数据 的支持,还需要在求出线性回归方程后,对回归方 程进行显著性检验。多元线性回归方程的显著性检 验与一元线性回归方程的显著性检验思想是一致的, 但也有不同之处。这里我们介绍两种方法,一是回 归方程整体显著性的 检验F ,另一个是回归系数显
从回归模型的简洁性上看,回归方程中包含自变量个数 越小越好。

北大应用多元统计分析课件第三章

北大应用多元统计分析课件第三章

在进行相关分析时,我们需要满足一些基本 假设,以确保结果的有效性和可靠性。
相关系数的含义及意义
1 相关系数的数值范围和方向
相关系数的范围在-1和1之间,负值表示负相关,正值表示正相关,接近0表示无相关。
2 相关系数的含义与意义
相关系数反映了变量之间的关系紧密程度,可以帮助我们预测和解释变量之间的相互作 用。
解释Pearson相关系数的值可以帮助我们理解变量之间的线性相关性,并应用于预测和决 策。
Spearman等级相关系数的计算与检验
1 Spearman等级相关系数的数值计算
计算Spearman等级相关系数需要将变量转化为等级形式,通过计算排位差异来获得相关 性。
2 Spearman等级相关系数的显著性检验
相关分析的概念与基本原理
1 相关分析的定义
相关分析是一种统计技术,用于研究变量之 间的关系。它可以帮助我们理解变量之间的 相关性。
2 相关分析的分类
相关分析可分为线性相关和非线性相关两种 类型,具体取决于变量之间的关系形式。
3 相关系数的定义与意义
4 相关分析的基本假设
相关系数衡量了变量之间的相关性强度和方 向,可以帮助我们理解变量之间的关系程度。
A. Johnson and Dean W. Wichern.
2 相关分析的注意事项
在进行相关分析时,我们需要考虑样本大小、数据类型、线性关系等因素,并避免过度 解读相关性。
3 相关分析与因果关系的区别
相关分析只能揭示变量之间的相关性,而不能确定因果关系。因果关系需要更多的实验 证据。
参考资料
• 应用多元统计分析(北京大学)课件 • Applied Multivariate Statistical Analysis (6th Edition) by Richard

应用多元统计分析.ppt

应用多元统计分析.ppt

料作统计分析,我们能够得出:
第一章
§1.2


多元统计分析的应用领域--教育学
(1) 高考成绩和高中学习期间成绩的关系,即给出两 组变量线性组合间的关系,从而可由考生在高中期间的 学习成绩来预报高考的综合成绩或某科目的成绩.
(2) 给出考生成绩次序排队的最佳方案(最佳 组合).总分可以体现一个考生成绩好坏,但对报 考概率统计系的学生,按总分从高到低的顺序录 取并不是最合适的.应按适当的权数加权求和.如 数学、物理、外语的权数相对高些.
第一章
§1.1


引言--多元分析的研究对象和内容
综上所述,多元分析以p个变量的n次观 测数据组成的数据矩阵 x11 x12 … x1p x21 x22 … x2p
X=
xn1 xn2 … xnp
…. ….
…. ….
为依据。根据实际问题的需要,给出种种方法 。英国著名统计学家M.肯德尔(M.G.Kendall )在《多元分析》一书中把多元分析所研究的 内容和方法概括为以下几个方面:
第一章
§1.1


引言--多元分析的研究对象和内容
1. 简化数据结构(降维问题) 例如通过变量变换等方法使相互依赖的变量 变成互不相关的;或把高维空间的数据投影到 低维空间,使问题得到简化而损失的信息又不 太多.主成分分析,因子分析,对应分析等多元 统计方法就是这样的一类方法。 2.分类与判别(归类问题)
教育学-主成分分析在学生学习成绩排序中的应用 接着把每个学生12门课程的成绩代入第一 主成分Z1中,计算出每个学生第一主成分Z1的 得分值,然后按从大到小的次序对全班学生的 第一主成分Z1的得分值进行排序。这个次序作 为全班学生在大学本科4年中综合学习成绩的 顺序是更合理更科学的。

多元统计分析第三章

多元统计分析第三章

判别分析的应用实例
1
判别分析在市场细分中应用广泛,可以根据消费 者的购买行为、偏好等因素将市场划分为不同判别分析可用于信用评估、风险评 估等,根据借款人的财务状况、信用记录等因素 判断其信用风险。
3
在医学领域,判别分析可用于疾病诊断和治疗方 案选择,根据患者的症状、体征、检查结果等因 素进行分类和预测。
06 判别分析
CHAPTER
判别分析的基本原理
判别分析是一种多元统计分析方法,用于根 据已知分类的观测数据来建立一个或多个判 别函数,从而对新的观测数据进行分类。
判别分析广泛应用于经济、金融、医 学、生物等领域的数据分类问题。
它基于概率理论,通过寻找一个或多个函数 ,使得不同类别的观测数据尽可能地分开, 同时使同一类别的观测数据尽可能地接近。
支持决策制定
通过多元统计分析,我们可以对数据进行深入挖掘,为决 策提供有力支持,帮助我们做出更好的决策。
多元统计分析的应用领域
市场营销
在市场营销中,多元统计分析常用于市场细分、顾客行为 分析、产品关联分析等方面,帮助企业更好地了解客户需 求和市场趋势。
生物医学
在生物医学领域,多元统计分析用于基因关联研究、疾病 诊断和预测、药物研发等方面,有助于提高医疗水平和治 疗效果。
03 主成分分析
CHAPTER
主成分分析的基本原理
01
降维思想
通过线性变换将多个相关变量转 化为少数几个不相关的变量,即 主成分,以简化数据结构。
02
03
方差最大化
线性变换
主成分的确定基于各变量的方差, 最大化总体方差,使变换后的新 变量更具代表性。
主成分分析通过线性变换将原始 变量转换为新变量,新变量之间 互不相关。

应用多元统计2013

应用多元统计2013
矩阵形式:y X 0 1 x11 x1, p y1 1 1 x x y 21 2, p 1 其中y 2 , , X , 2 1 xn1 xn , p p yn n 满足E ( ) 0, D( ) 2 I nn
应用统计分析
§3.1 多元线性回归模型
Y 0 1 X1 p X p , E( ) 0,Var( ) 2
式中0 , 1 , , p为未知参数, 为随机误差项, X 1, ,X p是普通变量,这里称为自变量,Y 是因变量。
应用统计分析
对( X 1 , , X p , Y )进行观察,得到n组样本观测值 ( xi1 , , xip , yi ), i 1, , n, 则有 y1 0 1 x11 p x1 p 1 y2 0 1 x21 p x2 p 2 y x x 0 1 n1 p np n n
年龄 3岁 4岁 5岁 6岁 7岁 8岁
92.5
97.0 96.0 96.5 身 高 97.0 92.0 96.5
96.5
101.0 105.5 102.0 105.0 99.5 102.0
106.0
104.0 107.0 109.5 111.0 107.5 107.0
115.5
115.5 111.5 110.0 114.5 112.5 116.5
•若某公司管理人员要预测来年该公司的销售额y时, 研究认为影响销售额的因素不只是广告宣传费x1,还 有可支配收入x2,价格x3,研究与发展费用x4,各种投 资x5,销售费用x6.

北大多元统计分析答案

北大多元统计分析答案

第二章 多元正态分布及参数的估计2-1 解:利用性质2, 得二维随机向量Y~N 2(μy ,∑y ),其中:3112121312211,().y y A d A I A AA μμ∑⎛⎫⎛⎫⎛⎫=+=+= ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭-⎛⎫''=== ⎪-⎝⎭2-2 (1)证明:记Y 1= X 1 +X 2 =(1,1) X , Y 2= X 1-X 2= (1,﹣1) X ,利用性质2可知Y 1 , Y 2 为正态随机变量. 又()()212111111011Cov(,)Y Y ∑σρρ⎛⎫⎛⎫==++= ⎪ ⎪--⎝⎭⎝⎭故X 1 +X 2和X 1-X 2相互独立.另证:记112121221111Y X X X Y CX Y X X X +⎛⎫⎛⎫⎛⎫⎛⎫==== ⎪ ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎝⎭,则2~(,),Y N C C C μ∑'因222111111111111112101111021()()Y ΣC C ρ∑σρρρρσσρρρ⎛⎫⎛⎫⎛⎫'== ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭+++⎛⎫⎛⎫⎛⎫== ⎪ ⎪ ⎪----⎝⎭⎝⎭⎝⎭故由定理2.3.1可得X 1 +X 2和X 1-X 2相互独立.(2)解:因为1212221212210021()~,()X X Y N X X μμρσμμρ⎛⎫+++⎛⎫⎛⎫⎛⎫= ⎪ ⎪ ⎪ ⎪---⎝⎭⎝⎭⎝⎭⎝⎭ 所以22121212122121~(,()),~(,()).X X N X X N μμσρμμσρ+++---2-3 (1)证明:令121122()()()()()()pp pp I I X X X Y CX I I X X X ⎛⎫⎛⎫⎛⎫+=== ⎪ ⎪ ⎪⎪--⎝⎭⎝⎭⎝⎭,则2~(,)p Y N C C C μ∑'. 因为1221121212211212D()22D()()()pp pp p p pp pp pp I I I I Y C X C I I I I I I I I O O ∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑⎛⎫⎛⎫⎛⎫'==⎪ ⎪ ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎛⎫++⎛⎫= ⎪⎪ ⎪---⎝⎭⎝⎭+⎛⎫= ⎪-⎝⎭由定理2.3.1可知X (1) +X (2)和X (1) -X (2) 相互独立. (2)解:因为121212212121222()()()()()()()()()~,()p O X X Y N O X X ∑∑μμ∑∑μμ⎛⎫+⎛⎫⎛⎫⎛⎫++= ⎪ ⎪ ⎪ ⎪ ⎪---⎝⎭⎝⎭⎝⎭⎝⎭, 所以12121212121222()()()()()()()()~(,()),~(,()).p p X X N X X N μμ∑∑μμ∑∑+++---2-6 解:(1)记B =(3,-1,1), 由性质2得,~(,')Y BX N B B B μ=∑.123121113(3,2,1)313,'(3,2,1)132291122132(13,9).B B B Y X X X N μ⎛⎫⎛⎫⎛⎫⎪ ⎪⎪=--=∑=--= ⎪ ⎪⎪ ⎪ ⎪⎪⎝⎭⎝⎭⎝⎭∴=-+ (2)令1132'X Y X a X ⎡⎤=-⎢⎥⎣⎦, 显然31,X Y 均服从正态分布, 故要使它们相互独立,只需()31,0COV X Y =即可. 又因()313311223313123212,(,)(,)(,)(,)22COV X Y COV X X a X a X COV X X a COV X X a COV X X a a =--=--=-- ∴1222a a +=,故当(1,0.5)a =时满足条件. 2-9 解:(1)1/1/1/1/1/1/1/1/1/21/2001/41/21/61/ '1/61/62/601/402/61/1/1/1/3/1/003/1000010000100001AA⎡⎤⎡⎤⎢⎥⎢⎥--⎢⎥⎢⎥=⎢⎥⎢⎥--⎢⎥⎢⎥⎢⎢--⎣⎣⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦∴A是正交矩阵.(2)①由Y=AX知,11/1/1/1/2Y X X⎡==⎣,且()442211'()'()'''i ii iY Y Y AX AX X AA X X X X=======∑∑,所以()444222221211444222221114214842()4.i i ii i ii i ii i iiiY X Y X XX X X X X X XX X========-=-=-+=-+=-∑∑∑∑∑∑∑②由2444(,)X N Iμσ1,Y=AX知:2444(,')Y N A AI Aμσ1.而22244''AI A AA Iσσσ==,故由定理2.3.1的推论2知1234,,,Y Y Y Y相互独立.③由②知1234,,,Y Y Y Y均服从正态分布,且方差均为2σ,又41/1/1/1/121/1/0010101/1/2/0101/1/1/3/Aμμμ⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥-⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥-⎢⎥⎢⎥⎢⎥⎢⎣⎦⎣⎦-⎣1所以221~(2,),~(0,)(2,3,4).iY N Y N iμσσ=2-11解:设221212121211(,)exp(22221465)22f x x x x x x x xπ⎧⎫=-++--+⎨⎬⎩⎭2222211121122122222121[()2()()()]2(1)x x x xσμσσρμμσμσσρ⎧⎫=-----+-⎨⎬-⎩⎭比较上下式相应的系数,可得:1222112212122221121222212211212121122222214265σσσσρσσμσρσσμμσρσσμμσμσρσσμμ⎧=⎪=⎪⎪=⎪-=⎨⎪-+=-⎪⎪-+=-⎪+-=⎩解得:121211/43σσρμμ=⎧⎪=⎪⎪⎨=-⎪=⎪⎪=⎩,所以2111222122411,312μσρσσμμρσσσ-⎛⎫⎛⎫⎛⎫⎛⎫==∑==⎪⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭⎝⎭. 2-13解:(1)[]()()'(')'(')'ΣE X EX X EX E XX EXEX E XXμμ=--=-=-(')'.E XXΣμμ∴=+(2)()()()(')tr'tr'tr'E X AX E X AX E AXX E AXX===⎡⎤⎡⎤⎣⎦⎣⎦()()tr'tr'tr()tr(')tr()tr(')tr()'.AE XX AΣAΣAΣA AΣA Aμμμμμμμμ==+=+⎡⎤⎡⎤⎣⎦⎣⎦=+=+(3)∵22'2'1tr()=tr()()=trp p p p p p pΣA I I Ip pσσσ⎛⎫⎡⎤--⎪⎢⎥⎣⎦⎝⎭1111()()()2222'2'22 tr tr tr tr(1) p p p p p pI I p p pp p pσσσσσσσ⎛⎫=-=-=-=-⎪⎝⎭1111,又'2'''11'()'()()()p p p p p p p p p p pA a I a ap pμμ=-=-11111111112''=()=0p p p ppap-1111,∴2(')()'(1)E X AX tr ΣA A p μμσ=+=-.2-18解:(1)()()1111()()().n n n ni i i i i i i i i i E Z E c X c EX c c μμμ=========∑∑∑∑(2)∵Z 为p 维正态随机向量的线性组合,故Z 也为正态随机向量,又 22()()111()()()'nnni i i i i i i i D Z D c X c DX c Σc c Σ=======∑∑∑, 结合(1)知 ~(,')p Z N c c Σμ(3)∵22221212()1n nc c c c c c nn++++++≥=,且Σ为非负定矩阵 ∴对任意p 维向量0x ≠,有2111111''()'()'''''0,n n n i i x c c Σ-Σx x c c Σ-Σx c c -x Σx c -x Σx n n n n n =⎛⎫⎛⎫⎛⎫⎛⎫===≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭∑11即1n c n=1 时,Z 的协方差阵在非负定意义下达到极小.第三章 多元正态总体参数的假设检验3-1解:因为A 对称幂等阵,而对称幂等阵的特征值非0即1,且只有r 个非0特征值,即存在正交阵Γ(其列向量i r 为相应特征向量),使⎥⎦⎤⎢⎣⎡=ΓΓ'000t I A ,记),,(1n r r =Γ,令X Y Y Y n Γ'=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡= 1(即Y X Γ=), 则),(),(~22n nn n I N I N Y σμσμΓ'=ΓΓ'Γ', ∑==⎥⎦⎤⎢⎣⎡'=ΓΓ'''ti it YY I Y Y A Y AX X 122222100011~1σσσσ,因为),,2,1)(,(~2r i r N Y i i ='σμ,且相互独立,所以∑=='=ti ir X YAX X 12222),(~11δσσξ,其中非中心参数为121112221111()[)][,,]tt i t t t i t r r rr rr r r r δμμμμμσσσ='⎡⎤⎢⎥''''==++=⎢⎥'⎢⎥⎣⎦∑(μμσμμσA I t '=Γ'⎥⎦⎤⎢⎣⎡Γ'=22100013-2解:记()rank A r =.① 若n r =,由O AB =,知n n O B ⨯=,于是AX X '与BX X '相互独立; ② 若0=r 时,则0=A ,则两个二次型也是独立的. ③以下设0r n <<.因A 为n 阶对称阵,存在正交阵Γ,使得100',000rr r D ΓA Γ=D λλ⎡⎤⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦其中0λ≠为A 的特征值1(,,)i r =.于是,r r D D A=ΓΓ'AB ΓΓ'B ΓΓ'⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦000000, 令11122122,nnH H H =Γ'B ΓH H ⨯⎡⎤⎢⎥⎣⎦其中11H 为r 阶方阵, 由于111211122122rr r H H D D H D H AB =ΓΓ'ΓΓ'H H ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦000000, 故11120,0r r D H D H ==. 又因r D 为满秩阵,故有1112()0,0r r r n r H H ⨯⨯-==. 由于H 为对称阵,所以21()0n r r H -⨯=.于是 2200,0H =Γ'B ΓH ⎡⎤=⎢⎥⎣⎦ 令H X Γ'=,则2~(,)n n Y N I μσΓ',且21'()rr i i i D X AX Y A Y Y A Y Y Y Y ξλ=⎡⎤'''''==ΓΓ=ΓΓ==⎢⎥⎣⎦∑000, 112222000ηΓΓΓ(,,)r r n n Y X BX Y B Y Y Y Y H H Y ++⎡⎤⎡⎤⎢⎥''''====⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦,由于11,,,,,r r n Y Y Y Y +相互独立,故AX X '与BX X '相互独立..3-11解:这是两总体均值向量的检验问题. 检验统计量取为(p =3,n =6,m =9):021~(,1)(2)H n m p F T F p n m p n m p+--=+--+-下其中2112(2)()()()nmT n m X Y A A X Y n m-'=+--+-+故检验统计量为1121()()()n m p nmF X Y A A X Y p n m-+--'=⨯-+-+用观测数据代入计算可得: 25.3117,1.4982,T F == 显著性概率值 0.26930.05p α=>= 故H 0相容.第五章 判别分析5-1 解:由题意,其错判概率为1111211P μμμμΦΦσσ()*()*(|)[()]()--=-+ 12121121212112111μσμσμσμσμμσσσσΦΦσσ()()[()]()()()()()-+---+=-+(1)(2)(2)(1)2112[1()]()μμμμσσσσ--=-Φ+Φ-+),()(21)1()2(12)1()2(σσμμσσμμ+-Φ+--Φ= )]()(1[1)2|1(1)1(*1)1(*σμμσμμ-Φ+-Φ--=P)()(2)2(2112212)2(121221σμσσσμσμσμσσσμσμ-++Φ----Φ=)()()()( )()(21)2()1(12)2()1(σσμμσσμμ+-Φ---Φ= )](1[)(121)1()2(12)1()2(\σσμμσσμμ+-Φ----Φ-= ).()(12)1()2(21)1()2(σσμμσσμμ--Φ-+-Φ= 5-2 解:由题意(1)样品x 与三个总体21,G G 和3G 的马氏距离分别为 ,15.0)25.2()()(22212121=-=-=σμx x d ,5625.12)05.2()()(22222222=-=-=σμx x d,25.01)35.2()()(22232323=-=-=σμx x d 显然,{})()(),(),(min 23232221x d x d x d x d =,则3G x ∈,即样品5.2=x 应判归总体3G .(2)样品x 与三个总体21,G G 和3G 的贝叶斯距离分别为 ,3863.0)3863.1(1)ln()()(212121-=-+=+=σx d x D ,9488.24ln 5625.1)ln()()(222222=+=+=σx d x D ,25.01ln 25.0)ln()()(232323=+=+=σx d x D显然,{})()(),(),(min 21232221x D x D x D x D =,则1G x ∈,即样品5.2=x 应判归总体1G .5-4解:(1)可取121812207385123275537A -⎛⎫⎛⎫⎛⎫=∑+∑=+= ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭(组内)()(1)(2)(1)(2)1020100100()()10,101525100100B μμμμ-⎛⎫⎛⎫'=--=--= ⎪ ⎪-⎝⎭⎝⎭(组间) 类似于例5.3.1的解法, A -1B 的特征根就等于2(1)(2)1(1)(2)3751016500()()(10,10) 4.70675381013811381d A μμμμ---⎛⎫⎛⎫'=--=--== ⎪⎪--⎝⎭⎝⎭取1(1)(2)321()33a A d μμ-⎛⎫=-= ⎪⎝⎭,则1a Aa '=, 且a 满足:2().Ba Aa d λλ==判别效率:() 4.7067a Baa a Aaλ'∆===', Fisher 线性判别函数为:12()33)u X a X X X '==+ 判别准则为*1*2()()X G u X u X G u X u⎧∈>⎨∈≤⎩判当判当, 阈值为(1)(2)*21124.2964u u u σσσσ+==-+,其中 ()21118123217862432,330.87591232338976589765a a σ⎛⎫⎛⎫'=∑=== ⎪⎪⎝⎭⎝⎭ ()2222073211114132,330.124175338976589765a a σ-⎛⎫⎛⎫'=∑=== ⎪⎪-⎝⎭⎝⎭(1)(1)10 2.720215ua μ⎛⎫'====- ⎪⎝⎭(2)(2)20 4.889725ua μ⎛⎫'====- ⎪⎝⎭故(1)(2)uu >.当(1)2020X ⎛⎫= ⎪⎝⎭时,(1)20() 4.339020u X ⎛⎫==- ⎪⎝⎭ 因*(1)() 4.3390u X u =-<,∴判(1)2X G ∈. 当(1)1520X ⎛⎫= ⎪⎝⎭时,(2)15() 3.805020u X ⎛⎫==- ⎪⎝⎭因*(2)() 3.8050u X u =->,∴判(2)1.X G ∈ (2) )(10)(75)1|2()()2|1()()()()()1(1)1(2)1(11)1(22)1(2)1(1)1(X f X f L X f q L X f q X h X h X W ===(2)'1(2)(1)'1(1)(1)2(1)(1)2(1)1511exp{()()()()}222X X X X μμμμ--=--∑-+-∑- )25202020(32121218)25202020(21exp{5.71'⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡-=- ,19229.75)}15102020(32121218)15102020(211'>=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡+- )(10)(75)1|2()()2|1()()()()()2(1)2(2)2(11)2(22)2(2)2(1)2(X f X f L X f q L X f q X h X h X W ===(2)'1(2)(1)'1(1)(2)2(2)(2)2(2)1511e x p {()()()()}222X X X X μμμμ--=--∑-+-∑- )25202015(32121218)25202015(21exp{5.71'⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡-=- ,15.7)}15102015(32121218)15102015(211'>=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡+- 故,2)1(G X ∈ )2()2(G X ∈.(3)122'1112010181220101812()()ln ||()()ln 2015123220151232D x d x Σ-⎡⎤⎡⎤⎡⎤⎡⎤⎡⎤=+=--+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦122'22220202072020207()()ln ||()()ln 202575202575D x d x Σ---⎡⎤⎡⎤⎡⎤⎡⎤⎡⎤=+=--+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥--⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦212212exp(0.5())(1|)0.7306exp(0.5())exp(0.5())D x P x D x D x -==-+-, 222212exp(0.5())(2|)0.2694exp(0.5())exp(0.5())D x P x D x D x -==-+-. 5-5 解:2()()()()a d a d a d a a Sa a Sa ''''∆==''(1)(2)(1)(2)def 1()()a X X X X a a Baa Sa a Saλ'''--==≤''111,S B a λλ-=其中为的最大特征值且仅当对应的特征向量时等号成立. 又1(1)(2)(1)(2)12(1)(2)1(1)(2)()()()()S B X X X X S D X X S X X ---''=--=--,与有相同的特征值. 故21D λ=;以下验证a 就是D 2对应的一个特征向量:11(1)(2)(1)(2)1(1)(2)1(1)(2)22()()()().S Ba S X X X X S X X S X X D D a ----'=---=-∙=1(1)(2)2(),().a S X X a D -=-∆=故当取时比值达最大值5-6 解:记(1)(2)(),()()W X X a μμμ'-=-是X 的线性函数,21111,()~(,),X G W X N νσ∈当时且(1)(1)(2)1(1)(2)122(1)(2)1(1)(2)1(())()()()21[()()]2E W X a d d νμμμμμμμμμμ--''==-=-∑-'==-∑-其中21(1)(2)11(1)(2)2(())[()]()()()D W X D a X a D X a a ad σμμμμμμ--'''==-=-=∑'=-∑∑∑-=11111()0(2|1){()0|}{}W X P P W X X G P ννσσ--∴=≤∈=≤2111{/}()1().222P U d d d d =≤-=Φ-=-Φ其中11()~(0,1).W X U N νσ-=2(2)2222122221,()~(,),(),2X G W X N a d d νσνμμσ'∈=-=-=当时且222222()0(1|2){()0|}{}11{/}1().22W X P P W X X G P P U d d d ννσσ--∴=>∈=>=>=-Φ其中22()~(0,1).W X U N νσ-=第六章 聚类分析6-2证明:设变量X i 和X j 是二值变量,它们的n 次观测值记为x ti , x tj (t =1,…,n ). x ti , x tj 的值为0 or 1.由二值变量的列联表(表6.5)可知:变量X i 取值1的观测次数为a +b,取值0的观测次数为c +d ;变量X i 和X j 取值均为1的观测次数为a,取值均为0的观测次数为d .利用两定量变量相关系数的公式:()()ntii tj j ij xx x x r --=∑又11()()11[()()][()()()]n nti i tj j ti tj i j t t a b a cx x x x x x nx x a n n n an a b a c a a b c d a b a c n nad bc n==++--=-=-=-++=+++-++-=∑∑222211()()1[()]()()n nti i ti i t t a b x x x nx a b n n a b n a b a b c d n n==+⎛⎫-=-=+- ⎪⎝⎭+=-+=++∑∑222211()()1[()]()()nntj j tj j t t a c x x x nx a c n n a c n a c a c b d n n==+⎛⎫-=-=+- ⎪⎝⎭+=-+=++∑∑故二值变量的相关系数为:()()(7)ntii tj j ij xx x x C --==∑利用两定量变量夹角余弦的公式:cos nti tjij x xα=∑其中1,nti tj t x x a ==∑2211,n ntitj t t x a b x a c ===+=+∑∑故有(9)c o s )i j i jc α==. 6-3解:用最长距离法:① 合并{X (1),X (4)}=CL4,并类距离 D 1=1.(2)(3)(2)(5)0903********X XD X CL ⎛⎫ ⎪⎪= ⎪ ⎪⎝⎭② 合并{X (2),X (5)}=CL3,并类距离 D 2=3.③ 合并{CL3,CL4}=CL2,并类距离 D 3=8. ④ 所有样品合并为一类CL1,并类距离 D 4=10. 最长距离法的谱系聚类图如下:用类平均聚类法:① 合并{X (1),X (4)}=CL4,并类距离 D 1=1.② 合并{X (2),X (5)}=CL3,并类距离 D 2=3.③ 合并{CL3,CL4}=CL2,并类距离 D 3=(165/4)1/2. ④ 所有样品合并为一类CL1,并类距离 D 4=(121/2)1/2. 类平均法的谱系聚类图如下:(3)(3)010049803X D CL CL ⎛⎫ ⎪= ⎪⎪⎝⎭(3)(4)01002X DCL ⎛⎫= ⎪⎝⎭(2)2(3)(2)22(5)0903506513610004222X X D X CL ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭(3)(3)01362041062165403X D CL CL ⎛⎫ ⎪= ⎪⎪⎝⎭(3)(4)0121202X D CL ⎛⎫= ⎪⎝⎭6-6解:按中间距离法, 取β=-1/4,将B 和C 合并为一类后,并类距离D 1=1,而A 与新类G r ={B,C}的类间平方距离为222211()0.5(1.1 1.1)0.251 1.10.250.8524Ar AB AC BC D D D D =+-=⨯+-⨯=-=当把A 与{B ,C}并为一类时,并类距离210.9221D D ==<= 故中间距离法不具有单调性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

性质2 关于自由度n具有可加性: 设Wi ~Wp(ni,Σ) (i=1,…,k)相互独立,则
W ~ W (n, ),其中n n n .
i 1 i p 1 k
k
性质3 设p阶随机阵W~Wp(n,Σ), C是m×p常数 阵,则m阶随机阵CWC′也服从Wishart分布,即 CWC′~Wm(n,CΣC′).
在一元统计中,用于检验μ, σ2的抽 样分布有χ2分布,t 分布,F分布等,它们都 是由来自总体N(μ, σ2)的样本导出的检验 统计量. 推广到多元统计分析后,也有相应于 以上三个常用分布的统计量: Wishart, Hotelling T 2,Wilks Λ统计 量,讨论这些统计量的分布是多元统计分 析所涉及的假设检验问题的基础.
7
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--非中心 t 分布和F分布
定义3.1.2
定义3.1.3
8
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--非中心t分布的应用
一元统计中,关于一个正态总体N(μ,σ2)的均 值检验中,检验H0:μ=μ0时,检验统计量
应用多元统计分析
第三章 多元正态总体
参数的假设检验(一)
1
第三章 多元正态总体参数的假设检验
北大数学学院
目 录( 一 )
§3.1 几个重要统计量的分布
一、正态变量二次型的分布 二、威沙特分布 三、霍特林T2分布 四、威尔克斯统计量
§3.2 单总体均值向量的检验及置信域 §3.3 多总体均值向量的检验
推广到p元正态总体,样本协差阵S=A/(n-1) 及随机矩阵A(离差阵)的分布是什么? 设X(α) (α=1,…,n)为来自Np(0,Σ)的随机样本, 考虑随机矩阵 X (1) n W X ( ) X ( ) X (1) , , X ( n ) X X pn n p 1 X (n) 的分布.当p=1时,
17
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1
证明 因 W Z Z ~ Wp (n, )
1
几个重要统计量的分布--Wishart分布的性质 d n
其中 Zα~Np(0,Σ)(α=1,…,n)相互独立. 令Yα=CZα,则Yα~Nm(0,CΣC′). 故
CZ Z C CWC Y Y
1
13
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--Wishart分布(威沙特分布)
一般地,设X(α)~Np(μ,Σ) (α=1,…,n) 相互独立, 记
则称W=X'X服从非中心参数为Δ的非中心 Wishart分布,记为W~Wp(n,Σ,Δ).
其中
14
北大数学学院
2
北大数学学院
第三章 多元正态总体参数的假设检验
一元统计中,参数μ ,σ 2的检验 涉及到一个总体、二个总体,乃至 多个总体的检验问题; 推广到p元统计分析中,类似地 对参数向量μ 和参数矩阵Σ 涉及 到的检验也有一个总体、二个总体 ,乃至多个总体的检验问题。
3
北大数学学院
第三章 多元正态总体参数的假设检验
23
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布-- Hotelling T 2分布的性质
性质1 设X(α) ~ Np(μ,Σ) (α=1,…,n) 是来自p元 总体Np(μ,Σ)的随机样本, X和A分别为总体 Np(μ,Σ)的样本均值向量和离差阵,则统计量
T n(n 1)( X ) A ( X )


W X (2 )
1
n
X (1) X (1) , , X ( n ) X X ~ 2 2 (n). X 1n n1 12 (n)
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--Wishart分布(威沙特分布)
推广到p维正态总体时,随机矩阵W的分布是 什么? 定义3.1.4 设X(α) ~Np(0,Σ) (α=1,…,n)相 n 互独立,则称随机矩阵 W X X X X ( ) ( )
1
的分布为Wishart分布(威沙特分布),记 为W~Wp(n,Σ). n 2 2 2 W X ~ (n) , 即 显然p=1时 ( )
2 1
n( X )S ( X )
1
~ T ( p, n 1)
2
事实上,因
1 X ~ N p ( , ), 则 n ( X ) ~ N p (0, ). n 24
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布-- Hotelling T 2分布的性质
§3.1 几个重要统计量的分布--Wishart分布的性质
性质1 设X(α)~Np(μ,Σ) (α=1,…,n)相互独立 ,则样本离差阵A服从Wishart分布,即
A ( X ( ) X )( X ( ) X ) ~ Wp (n 1, )
1
nHale Waihona Puke 证明 根据第二章§2.5的定理2.5.2知
2 n
6
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--分量独立的正态变量二次型
则 Y Y
1

2
X X ~ (n, ), 其中
2
1

2

结论3 设X~Nn(0 ,σ2In), A为n阶对称方阵, rk(A)= r,则二次型 X'AX/σ2~χ2(r) A2=A(A为对称幂等阵). 特例:当A=In时, X I n X / 2 X X / 2 ~ 2 (n)
§3.1 几个重要统计量的分布--Wishart分布的性质
性质4 分块Wishart矩阵的分布:设X(α) ~ Np(0,Σ) (α =1,…,n)相互独立,其中
又已知随机矩阵
W11 W X ( ) X ( ) W21 1
n
11 12 r 21 22 pr W12 r ~ Wp (n, ) W22 p r
否定域为{|T|>λ},其中λ满足: P{|T|>λ}=α(显著性水平).
9
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--非中心t分布的应用
当否定H0时,可能犯第一类错误,且 第一类错误的概率=P{“以真当假”} =P{|T|>λ|μ=μ0} =显著性水平α. 当H0相容时,可能犯第二类错误,且 第二类错误的概率=P{“以假当真”} =P{|T|≤λ|μ=μ1 ≠μ0 } 此时检验统计量T~t(n-1,δ),利用非中心 t分 布可以计算第二类错误β的值.
1 1
n
n
d
由定义3.1.4有:
Y Y ~ W
1 n m
(n, CC), 故CWC ~ Wm (n, CC).
18
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--Wishart分布的性质
特例:
① aW~Wp(n,aΣ) (a>0,为常数).
而A~Wp(n-1,Σ),且A与X相互独立.由定 义 3.1.5知
T (n 1)[ n ( X )] A [ n ( X )]
2 1
(n 1)n( X ) A ( X )
1 1 n( X ) S ( X )
作为σ 的估计,而且知道
n 1 2 2 s ( X X ) 一元统计中,用样本方差 (i ) n 1 i 1 2
1

2
(X
i 1
n
(i )
X ) ~ (n 1)
2 2
11
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--Wishart分布(威沙特分布)
) D( Z ) n. E(W ) E( Z Z
1 1
n n
21
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布-- Hotelling T 2分布
一元统计中, 若X~N(0,1),~ χ2(n) ,X与 X 相互独立,则随机变量
在性质3 中只须取C=a1/2 Ip,即得此结论.
② 设l′=(l1,…,lp),则 l´Wl=ξ~ W1 (n,l´Σl), 即 ξ~σ2χ2(n) (其中σ2=l´Σl). 在性质3中只须取C=l´,即得此结论.
思考:试问随机阵W的对角元素Wii的分布?
19
北大数学学院
第三章 多元正态总体参数的假设检验
定义3.1.5 设X~Np(0,Σ),随机阵W~ Wp(n,Σ) (Σ0, n≥p),且X与W相互独立, 则 称统计量T2=nX′W-1 X 为Hotelling T2 统 计量,其分布称为服从n个自由度的T2 分布, 记为T2 ~ T2 (p,n). 更一般地,若X~Np(μ,Σ) (μ≠0),则称T2 的分布为非中心Hotelling T2 分布,记为 T2 ~ T2 (p,n,μ).
(习题3-4)

20
北大数学学院
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--Wishart分布的性质
性质5 设随机矩阵W~Wp(n,Σ),则 E(W)=nΣ. 证明:由定义3.1.4,知
~ Wp (n, ) W Z Z
相关文档
最新文档