多元统计分析第三章

合集下载

《多元统计分析》第三章 判别分析

《多元统计分析》第三章  判别分析
8
v (3) 交叉验证法(或称刀切法)
Ø 从组π1中取出x1j,用该组的其余n1−1个观测值和组π2的n2个观测值构造 判别函数,然后对x1j进行判别,j=1,2,⋯ ,n1。同样,从组π2中取出x2j, 用这一组的其余n2−1个观测值和组π1的n1个观测值构造判别函数,再对 x2j作出判别,j=1,2,⋯ ,n2。
v (1) 回代法
Ø 令n(2|1)——样本中来自π1而误判为π2的个数,n(1|2)——样本中来自π2
而误判为π1的个数,则P(2|1) 和P(1|2) 可估计为

2
| 1

n
2
| 1
,
Pˆ 1 | 2 n 1 | 2
n1
n2
Ø 该方法简单、直观,且易于计算。但它给出的估计值通常偏低,当样
xΣ 1x 2 Iix ci
其中 Ii

Σ 1 μi , ci


1 2
μiΣ 1 μi ,i
1, 2,, k,判别规则简化为
x l,
若Ilx

cl

max
1 i k
Iix

ci

这里Ii′x+ci为线性判别函数。
x l,
若d
2
x,
l


v 当Σ1=Σ2=⋯ =Σk=Σ时,采用线性判 别函数。
v 当Σ1,Σ2,⋯ ,Σk不全相等时,采用二 次判别函数
v 实践中,Σ1,Σ2,⋯ ,Σk几乎不可能完 全相等。
x l ,
若Iˆlx

cˆl

max
1 i k
Iˆix cˆi
Iˆi

多元统计分析第三章假设检验与方差分析

多元统计分析第三章假设检验与方差分析

多元统计分析第三章假设检验与⽅差分析第3章多元正态总体的假设检验与⽅差分析从本章开始,我们开始转⼊多元统计⽅法和统计模型的学习。

统计学分析处理的对象是带有随机性的数据。

按照随机排列、重复、局部控制、正交等原则设计⼀个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进⾏统计推断,是⾃然科学和⼯程技术领域常⽤的⼀种研究⽅法。

由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论⽅法研究的出发点。

所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要⽤概率来表明其可靠程度。

统计推断的任务是“观察现象,提取信息,建⽴模型,作出推断”。

统计推断有参数估计和假设检验两⼤类问题,其统计推断⽬的不同。

参数估计问题回答诸如“未知参数θ的值有多⼤?”之类的问题,⽽假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。

本章主要讨论多元正态总体的假设检验⽅法及其实际应⽤,我们将对⼀元正态总体情形作⼀简单回顾,然后将介绍单个总体均值的推断,两个总体均值的⽐较推断,多个总体均值的⽐较检验和协⽅差阵的推断等。

3.1⼀元正态总体情形的回顾⼀、假设检验在假设检验问题中通常有两个统计假设(简称假设),⼀个作为原假设(或称零假设),另⼀个作为备择假设(或称对⽴假设),分别记为0H 和1H 。

1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来⾃总体),(2σµN 的样本,我们要检验假设100:,:µµµµ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有⼀个正确。

备择假设的意思是,⼀旦否定原假设0H ,我们就选择已准备的假设1H 。

当2σ已知时,⽤统计量nX z σµ-=在原假设0H 成⽴下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。

《多元统计分析》3

《多元统计分析》3

一、Bayes判别
打开examp5.2.3.sav数据表⇒分析⇒分类>⇒判别式…⇒在“判别分析”对话框中,将现金流量/总债务[x1]、净收入/总资产[x2]、流动资产/流动债务[x3]和流动资产/净销售额[x4]选入“自变量”列表框中;将组别[g]选入“分组变量”列表框中(见图1)→定义范围…→在弹出的“判别分析:定义范围”对话框中(见图2),作图中的输入→继续⇒统计…→在弹出的“判别分析:统计”对话框中(见图3),作图中的选择→继续;选择分类…→在弹出的“判别分析:分类”对话框中(见图4),作图中的选择→继续;选择保存…→在弹出的“判别分析:保存”对话框中(见图5),作图中的选择→继续⇒确定,生成图6和图7。

图1
图2
图3
图4
图5
图6
图7
注:Dis_1表示经判别归属的组,Dis1_1和Dis2_1分别表示归属第1组和第2组的后验概率。

二、Fisher判别
打开examp5.4.1.sav数据表⇒分析⇒分类>⇒判别式…⇒在“判别分析”对话框中,将花萼长[x1]、花萼宽[x2]、花瓣长[x3]和花瓣宽[x4]选入“自变量”列表框中;将组别[g]选入“分组变量”列表框中(见图1)→定义范围…,即弹出“判别分析…”对话框→在“最小”框中填入1,在“最大”框中填入3→继续⇒统计…→在弹出的“判别分析:统计”对话框中,选择“函数系数”一栏里的未标准化→继续;分类…→在弹出的“判别分析:分类”对话框中,选择“图”一栏里的合并组→继续⇒确定,生成图2。

图1
图2
图2(续1)
图2(续2)。

多元统计分析:第三章 多元正态总体参数的假设检验(补充)

多元统计分析:第三章   多元正态总体参数的假设检验(补充)
18
第三章 多元正态总体参数的假设检验
所涉及的最大似然估计量—单个总体
ˆ X时 (4) 当 0 (0 0巳知)时, 取 似然函数达最大值:
L( X , 0 ) 2
np 2
0
n 2
n 1 etr - 0 A 2
19
第三章 多元正态总体参数的假设检验
15
第三章 多元正态总体参数的假设检验
所涉及的最大似然估计量—单个总体
单个p维正态总体Np(μ,Σ),设X(i)(i=1,…,n)为来自p 维总体的随机样本.样本的似然函数为
L( , ) 2
np 2
1 ˆ A时, 似然函数达最大值 : ˆ X , (1)当 n n np A 2 A np L( X , ) 2 2 exp - n n 2
9
第三章 多元正态总体参数的假设检验
§3.6正态性检验--p维数据的正态性检验
D2(1)≤ D2(2) ≤…≤ D2(n) 统计量 D2 的经验分布函数取为
.
其中H(D2(t) |p)表示χ2 (p)的分布函数在D2(t)的值. 设χ2 分布的pt分位数为χt2 ,显然χt2满足: H(χt 2 |p)= pt. 即χ2 分布的pt 分位数χt2 =H-1(pt |p). 由经验分布得到样本的pt 分位数D2(t)=Fn-1(pt ). 若H(x|p)≌Fn(x),应有D2(t) ≌ χt2 ,绘制点(D2(t) , χt2 )的散 布图,当X为正态总体时,这些点应散布在一条直线上. 10
(1) (1) ( 2) ( 2)
np 2
A1 A2 n
(t )
np 2 2
e
X )( X

多元统计分析第三章课件

多元统计分析第三章课件

查表得F0.01(3,3)=29.5,于是
T 2 0.01
35 3
F0.01
3, 3
147.5
故在显著性水平α=0.01下,拒绝原假设H0,即认为农村
与城市的2周岁男婴上述三个指标的均值有显著差异
(p=0.002)。
三、置信区域
T 2 n X μ S1 X μ
Q
n p
p n 1
称之为霍特林(Hotelling)T2 统计量。
当 H0 为真时,
n p
p n 1
T
2
服从F(p,n−p)
,对给定的显著
性水平α,拒绝规则为:
若T 2 T2,则拒绝H0.
其中T2
pn 1
n p
F
p,
n
p 。
这里需要解释的是,当 Σ 未知时,自然想到要用样本协差阵 1 S 取代 n 1
替 Σ ,因 (n 1)S1 是 Σ1 的无偏估计量,而样本离差阵
这里我们应该注意到,(3.3)式可以表示为
t2
n(X )2
S2
n( X
)(S 2 )1( X
)
对于多元变量而言,可以将 t 分布推广为下面将要介绍的
HotellingT 2 分布。
定义 设 X ~ N p (μ ,Σ ,) S ~ Wp (n ,Σ 且) X 与 S 相互独立,n p ,则称统计量T 2 nX S - X1 的分布
当 2 未知时,用
S 2
1 n 1
n i 1
(Xi
X )2
作为 2 的估计量,用统计量:
t (X 0) n
S
来做检验。当假设成立时,统计量 t 服从自由度为 n 1的 t 分布,

多元统计分析第三章聚类分析

多元统计分析第三章聚类分析

类平均法
类平均法的特点是定义两类之间的距 离平方为这两类元素两两之间距离的 平方的平均。其聚类方法和过程与前 两种方法相同。
离差平方和法
该方法的基本思想来自方差分析。即如 果分类正确,则同类样品的离差平方和 应当较小,而类间的离差平方和应当较 大。具体做法是:先令每个样品各自成 一类,然后每次缩小一类,计算所有可 能合并结果带来的离差平方和S,选择使 S增加最小的两类首先合并,依次类推。
设空间中的两点
P (x 1 ,x 2 , ,x p )',Q (y 1 ,y 2 , ,y p )'
s11,s22, ,spp
表示p个变量n次观测的样本方差,则定义 P到Q 的统计距离为:
d (P ,Q ) (x 1y 1 )2 s 1 1
(x 2y 2 )2 s2 2
(x py p )2 sp p
所有样品之间的样品相关系数矩阵记为:
Cij (2) ,定义为:
r11 r12
r1 p
Cij (2) (rij )
r21 r22
r2 p
rn1 rn2
rnp
Q型聚类 R型聚类
计算公式p :
xi x j
cosij
1 p
p
xi2
x
2 j
1 1 n
x i x j
cosij
1 n
n
j 个指标
1 ,2 , p )为第
i
一、相似系数:
这是大家最熟悉的统计量,它是将数据标准化后的夹
角的余弦。
常用 rij 表示。
p
(xik X i )(x jk X j )
rij
k1 p
p
1
( (xik X i )2 (x jk X j )2 ) 2

多元统计分析(何晓群 中国人民大学) 第三章

多元统计分析(何晓群 中国人民大学)  第三章
• 为此最常用的技巧是聚类分析,聚类分析将个体或对 象分类,使得同一类中的对象之间的相似性比与其他 类的对象的相似性更强。目的在于使类间对象的同质 性最大化和类与类间对象的异质性最大化。本章将介 绍聚类分析的性质和目的,并且引导研究者使用各种 聚类分析方法。
2021/1/28
中国人民大学六西格玛质量管理研究中心
2021/1/28
中国人民大学六西格玛质量管理研究中心
23
目录 上页 下页 返回 结束
§3.2 相似性度量
2021/1/28
中国人民大学六西格玛质量管理研究中心
24
目录 上页 下页 返回 结束
§3.2 相似性度量
(2) 相关系数。这是大家最熟悉的统计量,它 是将数据标准化后的夹角余弦。
有时指标之间也可用距离来描述它们的接近程度。 实际上距离和相似系数之间可以互相转化,
• 与多元分析的其他方法相比,聚类分析的方法是 很粗糙的,理论上还不完善,但由于它能解决许 多实际问题,很受人们的重视,和回归分析、判 别分析一起被称为多元分析的三大方法。
2021/1/28
中国人民大学六西格玛质量管理研究中心
7
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 3.1.2 聚类的目的
(2)一种改进的距离就是在前面曾讨论过 的马氏距离,它对一切线性变换是不变 的,不受指标量纲的影响。它对指标的 相关性也作了考虑,我们仅用一个例子 来说明。
2021/1/28
中国人民大学六西格玛质量管理研究中心
16
目录 上页 下页 返回 结束
§3.2 相似性度量
2021/1/28
中国人民大学六西格玛质量管理研究中心
2021/1/28

多元统计分析讲义(第三章)

多元统计分析讲义(第三章)

Equation Chapter 1 Section 1 Array《多元统计分析》Multivariate Statistical Analysis主讲:统计学院许启发()统计学院应用统计学教研室School of Statistics2004年9月第三章 判别分析【教学目的】1. 让学生了解判别分析的背景、基本思想; 2. 掌握判别分析的基本原理与方法; 3. 掌握判别分析的操作步骤和基本过程; 4. 学会应用聚类分析解决实际问题。

【教学重点】1. 注意判别分析与聚类分析的关系(联系与区别); 2. 阐述各种判别分析方法。

§1 概述一、什么是判别分析1.研究背景科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一类型都是用一些指标()12,,,p X X X X '=来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。

当得到一个新样本观测值(或个体)的关于指标X 的观测值时,要判断该样本观测值(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。

也就是说,判别分析(discriminant analysis )是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。

判别分析的应用十分广泛。

例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入,人均工农业产值,人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量,周长等判断此人的性别;在地质勘探中,根据某地的地质结构,化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病,等等。

值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题,如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。

多元统计分析第3章

多元统计分析第3章



确定广义方差及其几何解释
广义样本方差受到单个变量观测结果的变化性的过 度影响。 因此,有时改变所有偏差向量的比例,使它们有相 同的长度,是有用的。


改变剩余向量的比例,相当于对每一个原始的观测 值的标准化值替换。标准化变量的样本协方差矩阵 就是R
所有得到的向量 的长度为

当这些向量几乎正交时,标准化变量的广义样本方 差较大,而当这些向量的两个或更多个几乎是同一 方向时,广义样本方差较小。 在p维空间中由偏差向量生成的体积,与广义样本方 差有关,采用与推导式(3-15)同样的步骤,有:
在平

此面积可表示为

对于p个偏差向量,我们可以确定下面一般性的结论

可以利用积分计算证明超椭球的体积与广义方差有 关,具体的

虽然,广义方差有一些直观合意的几何解释,作为 样本协方差矩阵S的一个描述概况量,它有一个基本 缺点,如下例所示。
例3.8 (解释广义方差)

图3.7给出了三个相关模式很不同的散布图,全部三 个数据集有 且协方差矩阵是

从S计算出的特征值和特征向量可进一步描述散布图 中的模型,

对于三种情况,中心是
的椭圆是

椭圆的轴延伸方向为S的特征向量,轴长与S的特征 值平方根成比例。
注意到三个散布图覆盖了大约相同的面积,由于所 有的 ,因此概况变化性的椭圆恰好有相同的 面积。 正如例3.8所表明的,不能由 发现不同的相关结 构。 因此,经常希望不仅仅用单一数 作为S 的一个概 率量。 从练习2.12可知, 可以表示为S的特征值的乘积。 基于S-1的均值中心椭球具有长度与特征值平方根成 比例的轴(参见式(3-16)) 。因此,这些特征值 提供了在p维空间中表现数据在所有方向上的变化性 的信息。

第三章 多元回归分析 《应用多元统计分析》 ppt课件

第三章 多元回归分析 《应用多元统计分析》 ppt课件

n
n
ei2
yi b0 b1xi1 b2 xi2
2
bp xip
i 1
i 1
达到最小。解形如下式的正规方程:
yi (b0 b1xi1 b2 xi 2
bp xip )
0
xi1 yi (b0 b1xi1 b2 xi 2
bp xip ) 0
xip yi (b0 b1xi1 b2 xi 2
二、逐步回归分析
每步都要进行显著 性检验,以便保证 每次引入变量前回 归方程中只包括显 著性变量。这个过 不能 程反复进行,直到 既无不显著变量从 回归方程中剔除, 又无显著变量需要 选入回归方程时为 止。
开始
能否引入 不在方程中的变量

引入变量
能否剔除 已在方程中的变量

引入变量
不能
筛选结束
二、逐步回归分析
可以进一步证明最小二乘法估计量 b 服从正态分布,

b ~ Np1[β, 2(XX)1]
此时,最小二乘估计是一切无偏估计中方差最小的估计。
特别地,有 bj N[ j , 2 cjj ] ( j 0,1, , p ),其中,cjj 表
示矩阵 (XX)1 中第 j 行第 j 列的元素。
二、模型检验
通常来说,模型的设定只是基于定性分析作出的 假设。这种假设是否符合实际,能否得到样本数据 的支持,还需要在求出线性回归方程后,对回归方 程进行显著性检验。多元线性回归方程的显著性检 验与一元线性回归方程的显著性检验思想是一致的, 但也有不同之处。这里我们介绍两种方法,一是回 归方程整体显著性的 检验F ,另一个是回归系数显
从回归模型的简洁性上看,回归方程中包含自变量个数 越小越好。

北大应用多元统计分析课件第三章

北大应用多元统计分析课件第三章

在进行相关分析时,我们需要满足一些基本 假设,以确保结果的有效性和可靠性。
相关系数的含义及意义
1 相关系数的数值范围和方向
相关系数的范围在-1和1之间,负值表示负相关,正值表示正相关,接近0表示无相关。
2 相关系数的含义与意义
相关系数反映了变量之间的关系紧密程度,可以帮助我们预测和解释变量之间的相互作 用。
解释Pearson相关系数的值可以帮助我们理解变量之间的线性相关性,并应用于预测和决 策。
Spearman等级相关系数的计算与检验
1 Spearman等级相关系数的数值计算
计算Spearman等级相关系数需要将变量转化为等级形式,通过计算排位差异来获得相关 性。
2 Spearman等级相关系数的显著性检验
相关分析的概念与基本原理
1 相关分析的定义
相关分析是一种统计技术,用于研究变量之 间的关系。它可以帮助我们理解变量之间的 相关性。
2 相关分析的分类
相关分析可分为线性相关和非线性相关两种 类型,具体取决于变量之间的关系形式。
3 相关系数的定义与意义
4 相关分析的基本假设
相关系数衡量了变量之间的相关性强度和方 向,可以帮助我们理解变量之间的关系程度。
A. Johnson and Dean W. Wichern.
2 相关分析的注意事项
在进行相关分析时,我们需要考虑样本大小、数据类型、线性关系等因素,并避免过度 解读相关性。
3 相关分析与因果关系的区别
相关分析只能揭示变量之间的相关性,而不能确定因果关系。因果关系需要更多的实验 证据。
参考资料
• 应用多元统计分析(北京大学)课件 • Applied Multivariate Statistical Analysis (6th Edition) by Richard

多元统计分析第三章

多元统计分析第三章

判别分析的应用实例
1
判别分析在市场细分中应用广泛,可以根据消费 者的购买行为、偏好等因素将市场划分为不同判别分析可用于信用评估、风险评 估等,根据借款人的财务状况、信用记录等因素 判断其信用风险。
3
在医学领域,判别分析可用于疾病诊断和治疗方 案选择,根据患者的症状、体征、检查结果等因 素进行分类和预测。
06 判别分析
CHAPTER
判别分析的基本原理
判别分析是一种多元统计分析方法,用于根 据已知分类的观测数据来建立一个或多个判 别函数,从而对新的观测数据进行分类。
判别分析广泛应用于经济、金融、医 学、生物等领域的数据分类问题。
它基于概率理论,通过寻找一个或多个函数 ,使得不同类别的观测数据尽可能地分开, 同时使同一类别的观测数据尽可能地接近。
支持决策制定
通过多元统计分析,我们可以对数据进行深入挖掘,为决 策提供有力支持,帮助我们做出更好的决策。
多元统计分析的应用领域
市场营销
在市场营销中,多元统计分析常用于市场细分、顾客行为 分析、产品关联分析等方面,帮助企业更好地了解客户需 求和市场趋势。
生物医学
在生物医学领域,多元统计分析用于基因关联研究、疾病 诊断和预测、药物研发等方面,有助于提高医疗水平和治 疗效果。
03 主成分分析
CHAPTER
主成分分析的基本原理
01
降维思想
通过线性变换将多个相关变量转 化为少数几个不相关的变量,即 主成分,以简化数据结构。
02
03
方差最大化
线性变换
主成分的确定基于各变量的方差, 最大化总体方差,使变换后的新 变量更具代表性。
主成分分析通过线性变换将原始 变量转换为新变量,新变量之间 互不相关。

《多元统计分析》第三章聚类分析

《多元统计分析》第三章聚类分析

图像处理
聚类分析可用于图像分割、目 标检测等任务,提高图像处理 的效率和准确性。
社交网络
通过聚类分析,可以发现社交 网络中的社区结构,揭示用户 之间的关联和互动模式。
聚类分析的常用方法
K-均值聚类
一种迭代算法,通过最小化每个簇内对象与簇质 心的距离之和来实现聚类。需要预先指定簇的数 量K。
DBSCAN
感谢聆听
聚类结果的优化方法
层次聚类法
通过不断合并或分裂簇来优化聚类结果,可以灵活处理不同形状 和大小的簇,但计算复杂度较高。
基于密度的聚类法
通过寻找被低密度区域分隔的高密度区域来形成簇,可以发现任意 形状的簇,但对参数敏感。
基于网格的聚类法
将数据空间划分为网格单元,然后在网格单元上进行聚类,处理速 度较快,但聚类精度受网格粒度影响。
一种基于密度的聚类方法,通过寻找被低密度区 域分隔的高密度区域来实现聚类。可以识别任意 形状的簇,且对噪声数据具有较强的鲁棒性。
层次聚类
通过计算对象之间的距离,逐步将数据集构建成 一个层次结构的聚类树。可以分为凝聚法和分裂 法两种。
谱聚类
利用图论中的谱理论进行聚类分析,将数据集中 的对象表示为图中的节点,节点之间的相似度表 示为边的权重。通过求解图的拉普拉斯矩阵的特 征向量来实现聚类。
药物发现
通过对化合物库进行聚类分析,研究人员可以发现具有相 似化学结构和生物活性的化合物,从而加速新药的发现和 开发过程。
生物信息学
在基因表达谱、蛋白质互作网络等生物信息学研究中,聚 类分析可以帮助研究人员发现基因或蛋白质之间的功能模 块和调控网络。
在社交网络中的应用案例
社区发现
聚类分析可用于识别社交网络中的社区结构,即具有相似兴趣、行为或属性的用户群体。 这有助于社交网络运营商为用户提供更加个性化的推荐和服务。

多元统计分析第三章课件

多元统计分析第三章课件
2
定理
若 X ~ N p (0, Σ ) , S ~ Wp (n, Σ ) 且 X 与 S 相互独
2 1
立,令 T nX S X ,则
n p 1 2 T ~ F ( p, n p 1) np
在我们后面所介绍的检验问题中,经常会用到这一性质。
二、均值向量的检验
设X1,X2, ⋯,Xn是取自总体X~Np (μ, Σ)的一个样本,这里
2 -1
相互独立,n p , 则称统计量 T nX S X 的分布 为非中心 HotellingT2 分布,记为 T 2 ~ T 2 ( p, n, μ) 。 当 μ 0 时,称 T 服从(中心) Hotelling T 分布。
2 2
记为 T 2 ( p, n) 。 由于这一统计量的分布首先由 Harold Hotelling 提出 来的,故称为 Hotelling T 分布,值得指出的是,我 国著名统计学家许宝禄先生在 1938 年用不同方法也
当 未知时,用
2 2
1 n 2 S ( X X ) i n 1 i 1
2
作为 的估计量,用统计量:
来做检验。当假设成立时,统计量 t 服从自由度为 n 1 的 t 分布, 从而否定域为 | t | t / 2 (n 1) ,t / 2 (n 1) 为自由度为 n 1 的 t 分布 上的 / 2 分位点。 这里我们应该注意到, (3.3)式可以表示为
性水平α下被接受。因此,可以通过构造的置信区域的
方法来进行假设检验。
四、联合置信区间
P a X T a Sa a

n a μ a X T a Sa
n 1


a X T a Sa

多元统计(第三章)

多元统计(第三章)

3.5 测量30名出生到3周岁婴幼儿的身高(x1)和体重(x2)数据如下表所示,其中男女各15名,假定这两组都服从正态总体分布且协方差阵相等,试在显著水平ɑ=0.05下检验男女婴幼儿的这两项指标是否有差异。

解:当协方差矩阵相等时(∑1=∑2),两个正态总体均值向量的检验H0:u1=u2,H1:u1!=u2在H0成立的条件下,这里m=n=15,p=2T0^2= 3.9604,F(2,27)=3.35,(m+n-2)*p/(m+n-p-1)*F(2,27)=6.9481T0^2= 3.9604 < 6.9481故接收H0两项指标没有差异3.6 1992美国总统的三位候选人为布什,佩罗特,克林顿。

从支持三位候选人的选民中分别抽去了20人,登记了他们的年龄段(x1)和受教育程度(x2)资料如下表所示:假定三组都服从多元正态分布,检验这三组的总体均值是否有显著性差异(ɑ=0.05)H0 :u1=u2=u3.H0成立时,∧=det(E)/det(T)服从wilks分布∧(p,n-k,k-1)这里p=2,n=60,k=3E=[53.5230 -14.4780-14.4780 59.9640]T =[66.8470 -18.9390-18.9390 63.0120]∧=det(E)/det(T)=0.7785由∧与F统计量的关系,统计量T,k-1=2,统计量T,知T=(n-k)-p+1/p*(1-sqrt(∧))/ sqrt(∧)=3.7343 T > F(2*p,2*(n-k-p+1))=F(4,112)≈2.450故拒绝H0认为这三组的总体均值有显著性差异。

(3.7)假定三组都服从多元正态分布,检验这两个指标的三次重复测定均值向量是否有显著性差异(ɑ=0.05)H0 :u1=u2=u3.H0成立时∧=det(E)/det(T)服从wilks分布∧(p,n-k,k-1)这里p=2,n=48,k=3,E=[18.4050 17.505017.5050 35.5500]T =[18.4240 17.531017.5310 35.7670]∧=det(E)/det(T)=0.9893由∧与F统计量的关系,k-1=2,统计量T知T=(n-k)-p+1/p*(1-sqrt(∧))/ sqrt(∧)=0.1187T < F(2*p,2*(n-k-p+1))=F(4,88)≈2.4850故接受H0认为这两个指标的三次重复测定均值向量没有显著性差异3.8 根据习题3.5中的数据,检验男性婴幼儿和女性婴幼儿的协差阵是否相等(ɑ=0.05)解:H0:∑1=∑2, H1: ∑1!=∑2这里n=30,k=2,V是汇聚组内矩阵,V(k)是第k组样本协方差阵,n1=n2=15,构造统计量如下:T=(n-k)*ln∣V∣-[(n1-1)*ln∣V(1)∣+(n2-1)*ln∣V(2)∣],∣V∣=240.0146, V(1)= 293.2290, V(2)= 190.7972, 故T=22.3321在H0成立的条件下,T近似服从分布X(f)^2/(1-D),D=(2*p^2+3*p-1)*(K+1)/6*(p+1)*(n-k)=0.1131,f=p*(p+1)*(k-1)/2=3, X(f)^2/(1-D)= 8.8116由于T=22.3321 > X(f)^2/(1-D)= 8.8116,故拒绝H0,认为男性婴幼儿和女性婴幼儿的协差阵不相等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.
.
.
.
2020 年 5 月 13 日
.
19 / 156
几个重要统计量的分布
二、威沙特分布
Wishart 分布是一元统计中 χ2 分布的推广. 多元正态总体 Np(µ, Σ) 中, 常用样本均值向量 X¯ 作为 µ 的估计, 样本协差阵
S = A/(n − 1)
作为 Σ 的估计. 由第二章的定理 2.5.2 已给出
X¯ )2

χ2(n

1).
i=1
推广到 p 元正态总体, 样本协差阵 S = A/(n − 1) 及随机矩阵 A(离差 阵) 的分布是什么?
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
21 / 156
几个重要统计量的分布
二、威沙特分布
石万林 (多元统计分析)
计中的协方差阵 Σ.
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
X¯ − µ√1 + (µ1 − µ0) s2/n
≤ λ|µ = µ1
= β.
此时检验统计量
T

t(n

1, δ)(非中心参数
δ
=
√ n(µ1

µ0)/σ),
利用
非中心 t 分布可以计算第二类错误 β 的值. 从而得到检验法的功效函数
为 1 − β.
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
T = X√¯ − µ0 H∼0 t(n − 1), s2/n
否定域为 {|T | > λ}, 其中 λ 满足:P {|T | > λ} = α(显著性水平). ♣ 当否定 H0 时, 可能犯第一类错误, 且
第一类错误的概率 = P (“以真当假”) = P {|T | > λ|µ = µ0} = 显著性水平α;
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
9 / 156
几个重要统计量的分布
一、正态变量二次型的分布
结论 4 设 X ∼ Nn(µ, σ2In), A = A′, 则
其中
1 σ2
X ′ AX

χ2(r,
δ),
δ
=
1 σ2
µ′Aµ
⇐⇒
A
=
A2,
且 rank(A) = r(r ≤ n). 结论 5 二次型与线性函数的独立性:设 X ∼ Nn(µ, σ2In), A 为 n
结论 2 当 µi ̸= 0(i = 1, · · · , n), σ2 ̸= 1 时, X′X 的分布称为非中
心 χ2 分布.
.
定义 .
(3.1.1)
设 n 维随机向量 X ∼ Nn(µ, In)(µ ̸= 0), 则称随机变量 ξ = X′X 为服

n
个自由度、非中心参数
δ
=
µ′µ
=
∑n
i=1
µ2i
阶对称矩阵,B 为 m × n 矩阵, 令 ξ = X′AX, Z = BX, 若 BA = O, 则 BX 和 X′AX 相互独立.
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
10 / 156
几个重要统计量的分布
一、正态变量二次型的分布
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
13 / 156
几个重要统计量的分布
一、正态变量二次型的分布
结论 2 设 X ∼ Np(µ, Σ), Σ > 0, A 为对称阵, rank(A) = r. 则
(X − µ)′A(X − µ) ∼ χ2(r) ⇐⇒ ΣAΣAΣ = ΣAΣ.
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
7 / 156
几个重要统计量的分布
一、正态变量二次型的分布
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
8 / 156
几个重要统计量的分布
一、正态变量二次型的分布
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
18 / 156
几个重要统计量的分布
一、正态变量二次型的分布
♣ 当 H0 相容时, 可能犯第二类错误, 且
第二类错误的概率 = P (“以假当真”) = P {|T | ≤ λ|µ ̸= µ0}
(
)
µ=µ=1̸=µ0 P
.
.
.
.
2020 年 5 月 13 日
.
16 / 156
几个重要统计量的分布
一、正态变量二次型的分布
.
定义 .
(3.1.3)
设 X ∼ χ2(m, δ) 与 Y ∼ χ2(n) 相互独立, 令
X /m
F=
,
Y /n
则称 F 的分布为具有自由度为 m, n 和非中心参数为 δ 的 F 分布, 记 .为 F ∼ F (m, n, δ).
∑n
W=
X(α)X(′α) = XX′
α=1
.的分布为威沙特分布, 记为 W ∼ Wp(n, Σ).
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
23 / 156
几个重要统计量的分布
二、威沙特分布
显然, p = 1 时,X(α) ∼ Np(0, σ2), 此时
在一元统计中,用于检验 µ, σ2 的抽样分布有 χ2 分布,t 分布,F 分 布等, 它们都是由来自总体 N (µ, σ2) 的样本导出的检验统计量. 推广到 多元统计分析后, 也有相应于以上三个常用分布的统计量: Wishart, Hotelling T 2, Wilks Λ 统计量, 讨论这些统计量的分布是多元统计分析 所涉及的假设检验问题的基础.

χ2
分布,
记为
X. ′X ∼ χ2(n, δ) 或者 X′X ∼ χ2n(δ).
当 X ∼ Nn(µ, σ2In), µ ̸= 0, 且 σ2 ̸= 1 时, 令 1
Yi = σ Xi 显然
石万林 (多元统计分析)
Yi ∼ N (µi/σ, 1) (i = 1, · · · , n),
.
.
.
.
.
多元正态总体参数的假设检验
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
17 / 156
几个重要统计量的分布
一、正态变量二次型的分布
4. 非中心 χ2 分布、非中心 t 分布、非中心 F 分布的应用
一元统计中, 关于在一个正态总体 N (µ, σ2) 的均值检验中, 检验 H0 : µ = µ0 时, 检验统计量为
.
.
多元正态总体参数的假设检验
石万林 多元统计分析 2020 年 5 月 13 日
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
1 / 156
目录
目录
1. 几个重要统计量的分布 2. 单总体均值向量的检验及置信域 3. 多总体均值向量的检验 4. 协方差阵的检验 5. 独立性检验 6. 正态性检验
2020 年 5 月 13 日
.
6 / 156
几个重要统计量的分布
一、正态变量二次型的分布

其中
δ
=
1 σ2
µ′
µ
Y ′Y
=
1 σ2
X
′X
∼ χ2n(δ),
结论 3 设 X ∼ Nn(0n, σ2In), A 为对称矩阵, 且 rank(A) = r, 则 二次型 X′AX/σ2 ∼ χ2(r) ⇐⇒ A2 = A (A 为对称幂等矩阵)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
12 / 156
几个重要统计量的分布
一、正态变量二次型的分布
2. 一般 p 维正态随机向量的二次型 结论 1 设 X ∼ Np(µ, Σ), Σ > 0, 则 X′Σ−1X ∼ χ2(p, δ), 其中 δ = µ′Σ−1µ.
石万林 (多元统计分析)
= Inµ′,
µ1 · · · µp
则称 W = X′X 服从非中心参数为 ∆ 的非中心威沙特分布, 记为
W ∼ Wp(n, Σ, ∆), 其中
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
24 / 156
几个重要统计量的分布
二、威沙特分布
∆ = M ′M = (Inµ′)′(Inµ′) = µIn′ Inµ′ = nµµ′.
相关文档
最新文档