多元正态分布及检验
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
协方差分析
以前介绍的方差分析可用于两组或多组均数间 的比较,其处理因素一般是可以控制的。方差 分析要求各比较组除了所施加的处理因素不同 外,其他对观察指标有影响得因素齐同或均衡, 即要求控制对观察指标有影响的其它因素。在 实际工作中,有时有些因素无法加以控制,或 由于实验设计的疏忽、实验条件的限制等原因, 造成对观察指标有影响的个别因素未加控制或 难以控制。此时用方差分析不合适,应考虑用 协方差分析。
0.252 5.550
2.773 61.049
Sc- 1 = 轾 犏 犏 臌- 09..432761
- 0.426 0.200
( ) ( ) T 2 = n1n2
n1 + n2
X1 -
X2
Sc- 1
X1 -
X2
= 42? (0.50
13
3.10)轾 犏 犏 臌- 09..432761
-
0.426 0.200
0.245 4.267
, S2
=
轾 犏 犏 臌00..029588
0.258 6.619
Sc =
1 n1 + n2 -
2 轾 臌(n1 -
1)S1 + (n2 -
1)S2
= 1 创[5
6+ 7- 2
S1 + 6? S2 ]
1? 11
轾 犏 犏 臌12..370703
= 轾 犏 犏 臌00..215128
(n - 1)m (5- 1)? 3
df1 = 3, df2 = 2
两组比较
对于单变量且服从正态分布资料的两样
本的比较 变形
t = (X1 - X2)
n1 + n2 n1n2
Sc2
( ) ( ) t2 = n1n2
n1 + n2
X1 -
X2
Sc- 2
X1 -
X2
当为多元资料时,此公式推广为HotelingT 2
轾 犏 犏 臌30..1500
= 9.50
F = n1 + n2 - m - 1T 2 = 10 ? 9.50
(n1 + n2 - 2)m
22
4.32, df1 = 2, df2 = 10
SAS计算程序:
proc glm; class gr; model y1 y2=gr; contrast 'gr1 vs gr2' gr 1 -1 0; contrast 'gr1 vs gr3' gr 1 0 -1; contrast 'gr2 vs gr3' gr 0 1 -1; anova h=gr; run;
其中 X 为样本均数向量,S 为样本协方差阵,m0 总体均
数向量。
当
H0
成立时
n-
F=
(n -
m
1)m
T
2,
df1
=
m, df2 =
n-
m
例1:
如随机抽取某单位5名有冠心病的成年男 性,测量其甘油三脂(mmol/L),总 胆固醇(mmol/L),和高密度脂蛋白 胆固醇(mmol/L)含量,已知某单位 正常成年男性的甘油三脂、总胆固醇、 和高密度脂蛋白胆固醇的均数是1.02 mmol/L、2.73 mmol/L和 2.04mmol/L。问该单位冠心病成年男 性的血脂与正常成年男性有无差别?
样 甘油 本 三脂 号
X1 - 1.02
1 1.78 2 0.67 3 0.56 4 0.66 5 0.21
总胆 固醇
X 2 - 2.73
0.83 0.96 0.83 1.12 0.16
高密度脂蛋白 胆固醇
X3 - 2.04
-1.01 -0.84 -0.39 -1.03 -0.40
计算:
X - m0 = 骣 ççççççç桫- 000...775787604÷÷÷÷÷÷÷÷
1
11
2
x2
22
2
2
212
x1
1
11
x2
2
22
图1: 两个二元正态分布
11 22 且 12 0
11 22 且 12 0.75
多元正态分布的性质
= 5? (0.776, 0.780,
0.574)鬃轾 犏 犏 犏 犏 犏 臌134787...535109
47.59 182.86 134.32
38.30 134.32 103.60
骣 ççççççç桫- 000...775877064÷÷÷÷÷÷÷÷
= 295.743
F = n - m T 2 = 5- 3 ? 295.743
A2 x2 y2
17 97 16 90 18 100 18 95 21 103 22 106 19 99 18 94
A3 x3 y3
22 89 24 91 20 83 23 95 25 100 27 102 30 105 32 110
协方差分析中称需比较的因素为因子称 影响观察指标,需排除其影响的数量因 素为协变量。
x2 2i
2
x2i n
n 1
12 21 Corr X1, X 2 S21
x1i x2i
x1i n
n 1
x2i
12 21 /
11 22 r12
x1ix2i
x1i
x2i
n
x2
多元正态均值检验
H0 : 1 2 L k
H1 : 至少存在,使 i j i j
统计量的构造
组间协方差阵:B
k
n
X X
'
X X
1
组内协方差阵:E k
n
X
j
X
'
K
X
j
X
A
1 j1
1i
x1i
2
n
x2 2i
x2i
2
n
协方差阵与逆阵
11 21
12
22
1
1
11
22
2 12
22 Fra bibliotek12 21
11
1122
2 12
11 22
1 2 12
样本协方差阵与逆阵
实例
为研究三种饲料(A1,A2,A3)对猪催肥效果, 用每种饲料喂养8头猪,实验用猪的初始 体重未控制。喂养一段时间后观察小猪 的增重,所得资料如下表,试分析三种 饲料对猪催肥效果是否相同。
三组小猪的初始体重与增重 (kg)
A1 x1 y1
15 85 13 83 11 65 12 76 12 80 16 91 14 84 17 90
反之,如果出现下列情况之一,就难以得出
结论: 1.两组指标虽有显著差别,但趋势不一。或无 显著差别,但P接近0.05。 2 .两组间有些指标有显著差别,有些却无显著 差别。
多元正态分布 定义
P维正态分布定义:对随机变量 X=(X1,X2,…,XP) 的密度函数是
f (X )
2
1 X 1 X / 2 e p / 2 1/ 2
三种检验
(1)检验饲料A与初始体重x间是否存在交 互作用。、因为若两者有交互作用,则 意味着在x的不同取值下A对观察值的作 用不同,即可能对x的某些取值,A1的效 果最好,而对x的另一些取值,A2的效果 最好,因而撇开x谈A的主效应无多大意 义。相应的检验假设是A与x的交互效应 为0。
三种检验
(2)若A与x间无交互作用,则进一步检验 初始体重x与增重y间是否存在线性关系。 若不存在线性关系,则不能用协方差分 析比较三组均数间的差别。因为协方差 分析是利用协变量x与观察指标y间的线 性回归扣除x对y的影响。相应的检验假 设为x与y间的回归系数为0。
53
9
3.00
45
4
3.64
50
10
3.35
47
5
3.60
52
11
2.60
50
6
4.00
55
12
3.15
50
13
3.55
52
计算:
X1 = 轾 犏 犏 臌531..6657 , X2 = 轾 犏 犏 臌438..1557 , X1 - X2 = 轾 犏 犏 臌30..1500
S1 = 轾 犏 犏 臌00..124425
1.有限个多元正态的线性组合为多元正 态分布。 2.一个多元正态分布的所有子集分布有 一个多元正态分布。 3.零协方差意味着相应的随机变量是独 立的。 4 .分量的条件分布是正态分布。
多元正态性的判定
通常对多元正态分布的判断采用对边缘 分布的判断,即:若对多元变量X而言它 所有的一元分布都是正态分布的话,就 认为X是多元正态分布,此时很少出现非 正态的多元数据集。
S = 轾 犏 犏 犏 犏 犏 臌- 000...302584
0.08 0.13 - 0.20
- 0.24 - 0.21
0.36
轾犏17.51 S- 1 = 犏犏47.59
犏犏臌38.30
47.59 182.86 134.32
38.30 134.32 103.60
T 2 = n(X - ) m0 ' S- (X - m0 )
按方差分析的不同设计类型,相应地 有不同的协方差分析,协变量也可是一 个或多个。以下我们主要介绍最简单的 协方差分析,完全随机设计且只有一个 协变量的协方差分析。
基本思想:
是将线性回归与方差分析相结合的一种方法。 将那些定量变量X(未加控制或难以控制的因 素)对Y的影响看做协变量,建立应变量Y随 协变量X变化的线性回归关系,并利用这种回 归关系把X值化为相等后,再进行各组Y修正 均数间比较地假设检验,其实质就是从Y的总 离差平方和中扣除协变量X对Y的回归平方和, 对残差平方和作进一步分解后在进行方差分析, 以更好地评价各种处理的效应。
多变量统计描述
均数向量与离差矩阵
均数向量与离差矩阵
协方差矩阵
相关矩阵
多元正态分布及检验
多元正态分布
在许多医学问题中,当作均值的假设 检验时所依据的指标可能不止一个。 例如,当比较两组风湿性与类风湿性 关节炎患者的病情程度时,就不能仅 只用一个指标,如采用血沉、抗“O”、 白细胞计数三个指标,则数据呈下列 格式:
编号 血沉(X1) 抗“O”(X2) 白细胞数(X3)
1
A
2
3
┇
N1
1
B
2
3
┇
N2
┅
┅
┅
┅
┅
┅
┅
┅
┅
┇
┇
┇
┅
┅
┅
┅
┅
┅
┅
┅
┅
┅
┅
┅
┇
┇
┇
┅
┅
┅
这三项指标都是测得值越高病情越重,如果采用 t检验法对每个指标作检验,则只有出现下列情 况之一时,才能作出明确判断: 1.两组间三指标均有差异,且大小趋势一致。 2.两组间各指标均无差别,且P较大于0.05。
1
总协方差阵:T k n
X
j
X
'
X
j
X
BE
1 j1
维尔克斯(Wilks)统计量(分布)
EE
T EB
1 0
两两比较的统计量
Di2j
Xi X j
E 1
'
Xi X j
(N k m 1)ninj
( ) ( ) T 2 = n1n2
n1 + n2
X1 -
X2
Sc- 1
X1 -
X2
其中 X1, X2为样本均数向量,S1, S2 为样本协方差阵, Sc 为合并 样本协方差阵。
Sc =
n1 +
1 n2 -
2 轾 臌(n1 -
1)S1 + (n2 -
1)S2
F = n1 + n2 - m - 1T 2
S11 S21
S12
S22
1
1 S11S22
S122
S22 S12
S21
S11
二维正态分布密度函数可写成:
1
f (x, x)
2
11 22
1 2 12
exp
2
1
1 2 12
x1
(n1 + n2 - 2)m
df1 = m, df2 = n1 + n2 - m - 1
当n1, n2 较大时,F近似服从自由度为m的 c 2 分布。
例2:
编号
实验组
体重 身长 (kg) (cm)
编号
对照组
体重 身长 (kg) (cm)
1
3.05
50
7
3.20
50
2
4.10
50
8
3.00
46
3
3.50
p xi p
称之为多元正态分布,简记为 N p,
下面以二维正态分布介绍
n
x1i
1 E X1
X1
i 1
n
n
x2i
2
EX2
X2
i 1
n
11 D X1 S11
x2 1i
2
x1i n
n 1
22 D X2 S22
N k m ni nj
Di2j
F
一组资料(单样本)
对于单变量且服从正态分布资料的样本 与总体的比较,
变形
t = (X - m0) = n (X - m0)
S/ n
S
t2 = n(X - m0)S- 2 (X - m0)
当为多元资料时,此公式推广为HoTt2eling
T 2 = n(X - ) m0 ' S- (X - m0)